A Stability AI lança seu modelo avançado de geração de imagens, SDXL 0.9, que gera detalhes de imagem e composição significativamente aprimorados em relação à versão anterior. A empresa destaca que essa melhoria é substancial o suficiente para oferecer aplicações práticas para imagens geradas por IA em diversos setores.
Com o lançamento do SDXL 0.9, a Stability AI dá um “salto à frente” na geração de imagens hiperrealistas para várias aplicações criativas e industriais. Comparado ao modelo anterior, o novo modelo apresenta detalhes de imagem e composição significativamente aprimorados, de acordo com a empresa.
Ele é acessível por meio do ClipDrop e a API estará disponível em breve. Os usuários podem esperar um lançamento aberto dos pesos de pesquisa em meados de julho, à medida que o modelo se aproxima de sua versão 1.0.
O SDXL 0.9 oferece uma ampla gama de casos de uso criativos para imagens geradas por IA, incluindo criações hiperrealistas para cinema, televisão, música, vídeos educacionais e design, além de aplicações industriais. Segundo a Stability AI, essas capacidades posicionam seu modelo mais recente na vanguarda das aplicações do mundo real para imagens de IA.
Recursos além da geração de imagens
Além do prompt de texto básico, o SDXL 0.9 oferece muitos recursos, incluindo prompt de imagem para imagem (insira uma imagem para obter variações), inpainting (reconstrução de partes ausentes em uma imagem) e outpainting (expansão perfeita de imagens existentes).
Os aprimoramentos de composição no SDXL 0.9 resultam em um aumento significativo no número de parâmetros em comparação com a versão beta anterior. Parâmetros representam a soma de todos os pesos e viés em uma rede neural, e este modelo possui um modelo base de 3,5 bilhões de parâmetros e um pipeline de conjunto de modelos com 6,6 bilhões de parâmetros. Em contraste, a versão beta usava apenas um modelo de 3,1 bilhões de parâmetros.
Para gerar imagens mais realistas, com maior profundidade e resolução de 1024×1024, o SDXL 0.9 utiliza dois modelos CLIP, incluindo o maior modelo OpenCLIP até o momento (OpenCLIP ViT-G/14).
Acessibilidade e desempenho em hardware de consumo
Apesar de seus recursos avançados e arquitetura de modelo, o SDXL 0.9 pode ser executado em uma GPU de consumo moderna, requerendo apenas um sistema operacional Windows 10 ou 11 ou Linux, 16 GB de RAM e uma placa de vídeo Nvidia GeForce RTX 20 (ou equivalente) com pelo menos 8 GB de VRAM. Usuários do Linux podem utilizar uma placa AMD compatível com 16 GB de VRAM.
Desde o lançamento beta em 13 de abril, o SDXL gerou mais de 700.000 imagens e recebeu “grandes respostas” de “quase 7.000” usuários da comunidade Discord. A plataforma regularmente realiza “Confrontos”, com 54.000 imagens enviadas e 3.521 imagens do SDXL declaradas vencedoras.
Disponibilidade e planos futuros
O SDXL 0.9 está disponível na plataforma ClipDrop da Stability AI, com acesso para usuários da API e DreamStudio a partir de 26 de junho. O código para executar a versão de código aberto estará disponível posteriormente via GitHub. O lançamento de código aberto do modelo completo SDXL 1.0 está previsto para meados de julho.
Atualmente, o SDXL 0.9 está sendo lançado sob uma licença apenas para pesquisa, não comercial, e os pesquisadores podem solicitar acesso aos modelos.