A Stability AI lança seu modelo avançado de geração de imagens, SDXL 0.9, que gera detalhes de imagem e composição significativamente aprimorados em relação à versão anterior. A empresa destaca que essa melhoria é substancial o suficiente para oferecer aplicações práticas para imagens geradas por IA em diversos setores.

Com o lançamento do SDXL 0.9, a Stability AI dá um “salto à frente” na geração de imagens hiperrealistas para várias aplicações criativas e industriais. Comparado ao modelo anterior, o novo modelo apresenta detalhes de imagem e composição significativamente aprimorados, de acordo com a empresa.

Ele é acessível por meio do ClipDrop e a API estará disponível em breve. Os usuários podem esperar um lançamento aberto dos pesos de pesquisa em meados de julho, à medida que o modelo se aproxima de sua versão 1.0.

O SDXL 0.9 oferece uma ampla gama de casos de uso criativos para imagens geradas por IA, incluindo criações hiperrealistas para cinema, televisão, música, vídeos educacionais e design, além de aplicações industriais. Segundo a Stability AI, essas capacidades posicionam seu modelo mais recente na vanguarda das aplicações do mundo real para imagens de IA.

Alienígenas! Felizmente (?) eles são apenas gerados pela IA. | Imagem: SDXL 0.9 acionado pela Stability AI
Alienígenas! Felizmente (?) eles são apenas gerados pela IA. | Imagem: SDXL 0.9 acionado pela Stability AI

Recursos além da geração de imagens

Além do prompt de texto básico, o SDXL 0.9 oferece muitos recursos, incluindo prompt de imagem para imagem (insira uma imagem para obter variações), inpainting (reconstrução de partes ausentes em uma imagem) e outpainting (expansão perfeita de imagens existentes).

Os aprimoramentos de composição no SDXL 0.9 resultam em um aumento significativo no número de parâmetros em comparação com a versão beta anterior. Parâmetros representam a soma de todos os pesos e viés em uma rede neural, e este modelo possui um modelo base de 3,5 bilhões de parâmetros e um pipeline de conjunto de modelos com 6,6 bilhões de parâmetros. Em contraste, a versão beta usava apenas um modelo de 3,1 bilhões de parâmetros.

Para gerar imagens mais realistas, com maior profundidade e resolução de 1024×1024, o SDXL 0.9 utiliza dois modelos CLIP, incluindo o maior modelo OpenCLIP até o momento (OpenCLIP ViT-G/14).

Acessibilidade e desempenho em hardware de consumo

Apesar de seus recursos avançados e arquitetura de modelo, o SDXL 0.9 pode ser executado em uma GPU de consumo moderna, requerendo apenas um sistema operacional Windows 10 ou 11 ou Linux, 16 GB de RAM e uma placa de vídeo Nvidia GeForce RTX 20 (ou equivalente) com pelo menos 8 GB de VRAM. Usuários do Linux podem utilizar uma placa AMD compatível com 16 GB de VRAM.

Desde o lançamento beta em 13 de abril, o SDXL gerou mais de 700.000 imagens e recebeu “grandes respostas” de “quase 7.000” usuários da comunidade Discord. A plataforma regularmente realiza “Confrontos”, com 54.000 imagens enviadas e 3.521 imagens do SDXL declaradas vencedoras.

Disponibilidade e planos futuros

O SDXL 0.9 está disponível na plataforma ClipDrop da Stability AI, com acesso para usuários da API e DreamStudio a partir de 26 de junho. O código para executar a versão de código aberto estará disponível posteriormente via GitHub. O lançamento de código aberto do modelo completo SDXL 1.0 está previsto para meados de julho.

Atualmente, o SDXL 0.9 está sendo lançado sob uma licença apenas para pesquisa, não comercial, e os pesquisadores podem solicitar acesso aos modelos.