Stability AI lanza su modelo avanzado de generación de imágenes, SDXL 0.9, que genera detalles y composición de imagen significativamente mejorados con respecto a la versión anterior. La empresa destaca que esta mejora es lo suficientemente sustancial como para ofrecer aplicaciones prácticas para las imágenes generadas por IA en toda una serie de sectores.
Con el lanzamiento de SDXL 0.9, Stability AI da un «salto adelante» en la generación de imágenes hiperrealistas para diversas aplicaciones creativas e industriales. En comparación con el modelo anterior, el nuevo presenta una mejora significativa del detalle y la composición de la imagen, según la empresa.
Se puede acceder a él a través de ClipDrop y la API estará disponible en breve. Los usuarios pueden esperar un lanzamiento abierto de los pesos de búsqueda a mediados de julio, a medida que la plantilla se acerca a su versión 1.0.
SDXL 0.9 ofrece una amplia gama de casos de uso creativo para imágenes generadas por IA, incluidas creaciones hiperrealistas para cine, televisión, música, vídeo educativo y diseño, y aplicaciones industriales. Según Stability AI, estas capacidades sitúan a su último modelo a la vanguardia de las aplicaciones en el mundo real de las imágenes generadas por IA.
Funciones que van más allá de la captura de imágenes
Además de la consulta de texto básica, SDXL 0.9 ofrece muchas funciones, como la consulta de imagen a imagen (insertar una imagen para obtener variaciones), inpainting (reconstrucción de partes que faltan en una imagen) y outpainting (expansión perfecta de imágenes existentes).
Las mejoras de composición en SDXL 0.9 se traducen en un aumento significativo del número de parámetros en comparación con la versión beta anterior. Los parámetros representan la suma de todos los pesos y sesgos de una red neuronal, y este modelo tiene un modelo base de 3.500 millones de parámetros y un conjunto de modelos con 6.600 millones de parámetros. En cambio, la versión beta sólo utilizaba un modelo de 3.100 millones de parámetros.
Para generar imágenes más realistas con mayor profundidad y resolución de 1024×1024, SDXL 0.9 utiliza dos modelos CLIP, incluido el mayor modelo OpenCLIP hasta la fecha (OpenCLIP ViT-G/14).
Asequibilidad y rendimiento en hardware de consumo
A pesar de sus avanzadas funciones y arquitectura de modelos, SDXL 0.9 puede ejecutarse en una GPU de consumo moderna, ya que solo requiere un sistema operativo Windows 10 u 11 o Linux, 16 GB de RAM y una tarjeta de vídeo Nvidia GeForce RTX 20 (o equivalente) con al menos 8 GB de VRAM. Los usuarios de Linux pueden utilizar una tarjeta AMD compatible con 16 GB de VRAM.
Desde el lanzamiento de la beta el 13 de abril, SDXL ha generado más de 700.000 imágenes y ha recibido «grandes respuestas» de «casi 7.000» usuarios en la comunidad de Discord. La plataforma celebra regularmente «enfrentamientos», con 54.000 imágenes enviadas y 3.521 imágenes de SDXL declaradas ganadoras.
Disponibilidad y planes de futuro
SDXL 0.9 está disponible en la plataforma ClipDrop de Stability AI, con acceso para usuarios de API y DreamStudio a partir del 26 de junio. El código para ejecutar la versión de código abierto estará disponible más adelante a través de GitHub. La publicación en código abierto del modelo completo SDXL 1.0 está prevista para mediados de julio.
En la actualidad, SDXL 0.9 se publica con una licencia no comercial exclusiva para investigación, y los investigadores pueden solicitar acceso a los modelos.