DALL-E 2 de OpenAI muestra la impresionante creatividad de la IA, si sabes cómo controlarla. Un breve recorrido por DALL-E 2 en 2023.

DALL-E 2 de OpenAI fue pionero en modelos generativos de IA y la primera oferta de conversión de texto en imagen del mercado. Mucho ha llovido desde entonces: han surgido alternativas como Midjourney, que suelen producir mejores resultados con indicaciones menos complicadas, y el modelo subyacente se mejora con regularidad. También existe una alternativa de código abierto con Stable Diffusion y Stable Diffusion XL.

Pero con las indicaciones adecuadas y para aplicaciones especiales como el inpainting, DALL-E puede seguir siendo útil. Un ejemplo: DALL-E convierte mi sugerencia «una estatua antigua de un filósofo griego con un casco de realidad virtual, realista, fotografía, 2023» en una imagen adecuada, aunque de baja resolución, pero Midjourney se niega a añadir un casco de realidad virtual a la estatua de mucha mayor resolución.

O Midjourney cria uma imagem altamente realista, mas não captura o assunto desejado.
Midjourney crea una imagen muy realista, pero no consigue capturar el sujeto deseado.
O DALL-E implementa o prompt, mas a qualidade não se compara ao Midjourney.
El DALL-E implementa la indicación, pero la calidad no es comparable a la del Midjourney.

A continuación, me gustaría proporcionar una breve visión general de las funciones de DALL-E 2 y los principios básicos de la ingeniería prompt.

OpenAI DALL-E 2 puede crear, editar o modificar imágenes

La interfaz de usuario de DALL-E 2 es muy sencilla: a través de un campo de entrada, puede introducir su comando de imagen de texto, el llamado «prompt», y enviarlo al sistema de IA pulsando «Generar». Tras una breve espera, se muestran cuatro imágenes generadas.

Gerar imagens de IA é simples: você coloca texto em um campo de texto. A entrada pode ser curta ou detalhada. Seu prompt tem um forte impacto na saída.
Generar imágenes de IA es sencillo: se introduce texto en un campo de texto. La entrada puede ser breve o detallada. Lo que escriba influirá mucho en el resultado.

Debajo del campo de entrada, también puede cargar su propia imagen, siempre que no muestre a una persona real. A partir de las imágenes cargadas y de las recién creadas, DALL-E 2 puede generar variantes. Esto hace que sea relativamente fácil crear imágenes inspiradas en temas existentes que luego se pueden seguir editando. De este modo, el sistema de IA puede controlarse con mayor precisión.

Um clique em uma imagem abre a visualização detalhada. Aqui, variações podem ser criadas ou a imagem pode ser editada.
Al hacer clic en una imagen, se abre la visualización detallada. Aquí se pueden crear variaciones o editar la imagen.

Además, la función de edición puede utilizarse para marcar un área en la imagen, que DALL-E 2 puede modificar a continuación. Para ello, basta con describir de nuevo el resultado deseado mediante una indicación de texto.

A área a ser editada pode ser marcada com um pincel.
El área a editar puede marcarse con un pincel.

DALL-E 2 genera entonces tres variantes de la imagen original con los cambios correspondientes. Aquí he añadido un elegante bigote a la estatua.

Um bigode para um filósofo grego? Sem problema para o DALL-E 2.
¿Un bigote para un filósofo griego? Ningún problema para DALL-E 2.

OpenAI DALL-E 2 y la ingeniería rápida

Como ya es evidente en el ejemplo de la estatua antigua del pionero griego de la realidad virtual, el DALL-E 2 puede controlarse mediante la introducción de texto. OpenAI ha entrenado el sistema de IA con más de 650 millones de imágenes, por lo que DALL-E 2 ha visto y puede reproducir innumerables temas, estilos, exposiciones y otras propiedades de la imagen.

Mediante la llamada ingeniería de avisos -el diseño de la descripción de texto adecuada-, DALL-E 2 puede, por ejemplo, generar imágenes fotorrealistas con diferentes especificaciones de lente para simular distancias focales pequeñas o desenfoque de movimiento.

O DALL-E 2 pode reproduzir o estilo de imagem de diferentes câmeras, aqui o estilo Polaroid.
DALL-E 2 puede reproducir el estilo de imagen de diferentes cámaras, en este caso el estilo Polaroid.

Con las descripciones adecuadas, es posible capturar emociones, definir estructuras o proporciones, reproducir estilos como el steampunk o el cyberpunk, determinar ángulos de cámara y exposición, o utilizar el diseño de series de TV o películas como modelo.

DALL-E 2 puede imitar numerosos estilos de ilustración, así como arte en 3D o pinturas históricas. Esta capacidad de imitar estilos también la demuestra el DALL-E 2 para diversos estilos artísticos, artistas individuales u obras específicas.

Graças ao extenso treinamento, o DALL-E 2 também pode reproduzir estilos como o steampunk.
Gracias a un amplio entrenamiento, DALL-E 2 también puede reproducir estilos como el steampunk.
O DALL-E 2 também pode imitar o estilo de artistas individuais ou pinturas específicas.
El DALL-E 2 también puede imitar el estilo de artistas individuales u obras específicas.

Si se desea captar el estilo de una obra de arte o un artista concretos, también se puede utilizar la ayuda de la IA: en la llamadadesagregación, se puede pedir a modelos como ChatGPT o GPT-4 que describan las características y el estilo de un cuadro. La respuesta de la IA puede utilizarse para la ingeniería de consulta.

Además de estatuas antiguas, DALL-E 2 también puede crear otros objetos: desde bordados hasta estatuas, cuerpos, animales disecados, arquitectura o sillas de diseño, todo está disponible.

Meio cachorro, meio Jedi, meio filósofo grego - o DALL-E 2 impressiona com interpretações significativas.
Mitad perro, mitad Jedi, mitad filósofo griego: DALL-E 2 impresiona con interpretaciones llenas de sentido.

DALL-E 2: Seis consejos para la ingeniería prompt

Aspectos del promptExplicación
PrecisiónUtiliza descripciones precisas para los objetos o escenas deseados, por ejemplo, «un husky blanco jugando en un bosque nevado».
Adjetivos y adverbiosAñadir adjetivos y adverbios para dar más detalles, por ejemplo: «una bicicleta de carretera azul brillante en una pista vacía».
CreatividadSé creativo con tus indicaciones, por ejemplo, «un perro hecho de nubes».
ComparaciónUtiliza comparaciones para aclarar tus ideas, por ejemplo, «una casa cuyo color es tan amarillo como el de los plátanos maduros».
ContextoTen en cuenta el contexto en el que se van a utilizar las imágenes, por ejemplo, imágenes de mariposas de colores para un libro infantil.
SencillezSé conciso y céntrate en uno o dos elementos principales, por ejemplo, el personaje principal y el escenario.

DALL-E 2: Edición de imágenes externas y outpainting

Con la función de edición ya introducida, se pueden cambiar detalles de la imagen, como añadir un bigote, sustituir objetos o todo el fondo.

Como las imágenes generadas también se pueden descargar, se puede utilizar un programa externo de edición de imágenes para sacar aún más partido a DALL-E 2. En la versión más sencilla, se puede reducir el tamaño de nuestra estatua del filósofo griego y utilizarla como base para una nueva imagen.

Com truques simples, as imagens podem ser editadas ainda mais. Aqui, por exemplo, você pode gerar uma estátua para combinar com a cabeça.
Con sencillos trucos, las imágenes pueden editarse aún más. Aquí, por ejemplo, se puede generar una estatua a juego con la cabeza.

Con el mismo método se pueden añadir pinturas. DALL-E 2 puede dar cuerpo a la Mona Lisa, y nuestro filósofo griego de realidad virtual consigue compañía.

O DALL-E 2 adiciona o torso e o ambiente ao filósofo de realidade virtual, combinando com o estilo desejado. Com ajustes adicionais, os resultados podem ser refinados ainda mais.
DALL-E 2 añade el torso y el entorno al filósofo de realidad virtual, ajustándose al estilo deseado. Con ajustes adicionales, los resultados pueden refinarse aún más.

Si se repite este proceso varias veces, se puede ampliar cada vez más: algunos artistas ya crean impresionantes viajes por los mundos de DALL-E 2 o murales gigantes.

Combinando el procesamiento externo de imágenes, la ingeniería de avisos inteligente y la función de edición de DALL-E 2, son posibles muchas otras aplicaciones.

Si quieres profundizar más, deberías consultar el libro DALL-E 2 Prompts Book escrito por Guy Parsons. Ofrece una visión general de muchos de los trucos de ingeniería de indicaciones descubiertos hasta ahora, así como métodos adicionales para sacar el máximo partido a DALL-E 2. Muchos de estos trucos también pueden aplicarse a Midjourney o Stable Diffusion.

En cuanto a DALL-E 3, aún no lo sabemos con certeza, pero OpenAI ya está investigando arquitecturas alternativas para modelos generativos de IA, como los modelos de consistencia.