DALL-E 2 de OpenAI muestra la impresionante creatividad de la IA, si sabes cómo controlarla. Un breve recorrido por DALL-E 2 en 2023.
DALL-E 2 de OpenAI fue pionero en modelos generativos de IA y la primera oferta de conversión de texto en imagen del mercado. Mucho ha llovido desde entonces: han surgido alternativas como Midjourney, que suelen producir mejores resultados con indicaciones menos complicadas, y el modelo subyacente se mejora con regularidad. También existe una alternativa de código abierto con Stable Diffusion y Stable Diffusion XL.
Pero con las indicaciones adecuadas y para aplicaciones especiales como el inpainting, DALL-E puede seguir siendo útil. Un ejemplo: DALL-E convierte mi sugerencia «una estatua antigua de un filósofo griego con un casco de realidad virtual, realista, fotografía, 2023» en una imagen adecuada, aunque de baja resolución, pero Midjourney se niega a añadir un casco de realidad virtual a la estatua de mucha mayor resolución.
A continuación, me gustaría proporcionar una breve visión general de las funciones de DALL-E 2 y los principios básicos de la ingeniería prompt.
OpenAI DALL-E 2 puede crear, editar o modificar imágenes
La interfaz de usuario de DALL-E 2 es muy sencilla: a través de un campo de entrada, puede introducir su comando de imagen de texto, el llamado «prompt», y enviarlo al sistema de IA pulsando «Generar». Tras una breve espera, se muestran cuatro imágenes generadas.
Debajo del campo de entrada, también puede cargar su propia imagen, siempre que no muestre a una persona real. A partir de las imágenes cargadas y de las recién creadas, DALL-E 2 puede generar variantes. Esto hace que sea relativamente fácil crear imágenes inspiradas en temas existentes que luego se pueden seguir editando. De este modo, el sistema de IA puede controlarse con mayor precisión.
Además, la función de edición puede utilizarse para marcar un área en la imagen, que DALL-E 2 puede modificar a continuación. Para ello, basta con describir de nuevo el resultado deseado mediante una indicación de texto.
DALL-E 2 genera entonces tres variantes de la imagen original con los cambios correspondientes. Aquí he añadido un elegante bigote a la estatua.
OpenAI DALL-E 2 y la ingeniería rápida
Como ya es evidente en el ejemplo de la estatua antigua del pionero griego de la realidad virtual, el DALL-E 2 puede controlarse mediante la introducción de texto. OpenAI ha entrenado el sistema de IA con más de 650 millones de imágenes, por lo que DALL-E 2 ha visto y puede reproducir innumerables temas, estilos, exposiciones y otras propiedades de la imagen.
Mediante la llamada ingeniería de avisos -el diseño de la descripción de texto adecuada-, DALL-E 2 puede, por ejemplo, generar imágenes fotorrealistas con diferentes especificaciones de lente para simular distancias focales pequeñas o desenfoque de movimiento.
Con las descripciones adecuadas, es posible capturar emociones, definir estructuras o proporciones, reproducir estilos como el steampunk o el cyberpunk, determinar ángulos de cámara y exposición, o utilizar el diseño de series de TV o películas como modelo.
DALL-E 2 puede imitar numerosos estilos de ilustración, así como arte en 3D o pinturas históricas. Esta capacidad de imitar estilos también la demuestra el DALL-E 2 para diversos estilos artísticos, artistas individuales u obras específicas.
Si se desea captar el estilo de una obra de arte o un artista concretos, también se puede utilizar la ayuda de la IA: en la llamadadesagregación, se puede pedir a modelos como ChatGPT o GPT-4 que describan las características y el estilo de un cuadro. La respuesta de la IA puede utilizarse para la ingeniería de consulta.
Además de estatuas antiguas, DALL-E 2 también puede crear otros objetos: desde bordados hasta estatuas, cuerpos, animales disecados, arquitectura o sillas de diseño, todo está disponible.
DALL-E 2: Seis consejos para la ingeniería prompt
Aspectos del prompt | Explicación |
---|---|
Precisión | Utiliza descripciones precisas para los objetos o escenas deseados, por ejemplo, «un husky blanco jugando en un bosque nevado». |
Adjetivos y adverbios | Añadir adjetivos y adverbios para dar más detalles, por ejemplo: «una bicicleta de carretera azul brillante en una pista vacía». |
Creatividad | Sé creativo con tus indicaciones, por ejemplo, «un perro hecho de nubes». |
Comparación | Utiliza comparaciones para aclarar tus ideas, por ejemplo, «una casa cuyo color es tan amarillo como el de los plátanos maduros». |
Contexto | Ten en cuenta el contexto en el que se van a utilizar las imágenes, por ejemplo, imágenes de mariposas de colores para un libro infantil. |
Sencillez | Sé conciso y céntrate en uno o dos elementos principales, por ejemplo, el personaje principal y el escenario. |
DALL-E 2: Edición de imágenes externas y outpainting
Con la función de edición ya introducida, se pueden cambiar detalles de la imagen, como añadir un bigote, sustituir objetos o todo el fondo.
Como las imágenes generadas también se pueden descargar, se puede utilizar un programa externo de edición de imágenes para sacar aún más partido a DALL-E 2. En la versión más sencilla, se puede reducir el tamaño de nuestra estatua del filósofo griego y utilizarla como base para una nueva imagen.
Con el mismo método se pueden añadir pinturas. DALL-E 2 puede dar cuerpo a la Mona Lisa, y nuestro filósofo griego de realidad virtual consigue compañía.
Si se repite este proceso varias veces, se puede ampliar cada vez más: algunos artistas ya crean impresionantes viajes por los mundos de DALL-E 2 o murales gigantes.
Combinando el procesamiento externo de imágenes, la ingeniería de avisos inteligente y la función de edición de DALL-E 2, son posibles muchas otras aplicaciones.
Si quieres profundizar más, deberías consultar el libro DALL-E 2 Prompts Book escrito por Guy Parsons. Ofrece una visión general de muchos de los trucos de ingeniería de indicaciones descubiertos hasta ahora, así como métodos adicionales para sacar el máximo partido a DALL-E 2. Muchos de estos trucos también pueden aplicarse a Midjourney o Stable Diffusion.
En cuanto a DALL-E 3, aún no lo sabemos con certeza, pero OpenAI ya está investigando arquitecturas alternativas para modelos generativos de IA, como los modelos de consistencia.