O DALL-E 2 da OpenAI mostra uma impressionante criatividade de IA – se você souber como controlá-lo. Um pequeno passeio pelo DALL-E 2 em 2023.

O DALL-E 2 da OpenAI foi pioneiro em modelos de IA generativa e foi a primeira oferta de texto para imagem no mercado. Muita coisa aconteceu desde então: surgiram alternativas como o Midjourney, que geralmente produzem resultados melhores com prompts menos complicados, e o modelo subjacente é aprimorado regularmente. Há também uma alternativa de código aberto com o Stable Diffusion e o Stable Diffusion XL.

Mas, com os prompts corretos e para aplicações especiais como inpainting, o DALL-E ainda pode ser útil. Um exemplo: o DALL-E converte meu prompt “uma estátua antiga de um filósofo grego usando um headset de realidade virtual, realista, fotografia, 2023” em uma imagem adequada – embora de baixa resolução – mas o Midjourney se recusa a adicionar um headset de realidade virtual na estátua de resolução muito maior.

O Midjourney cria uma imagem altamente realista, mas não captura o assunto desejado.
O Midjourney cria uma imagem altamente realista, mas não captura o assunto desejado.
O DALL-E implementa o prompt, mas a qualidade não se compara ao Midjourney.
O DALL-E implementa o prompt, mas a qualidade não se compara ao Midjourney.

A seguir, gostaria de fornecer uma breve visão das funções do DALL-E 2 e dos princípios básicos de engenharia de prompts.

O OpenAI DALL-E 2 pode criar, editar ou modificar imagens

A interface do usuário do DALL-E 2 é mantida simples: através de um campo de entrada, você pode inserir o seu comando de imagem de texto, o chamado “prompt”, e enviá-lo para o sistema de IA pressionando “Gerar”. Após uma curta espera, quatro imagens geradas são exibidas.

Gerar imagens de IA é simples: você coloca texto em um campo de texto. A entrada pode ser curta ou detalhada. Seu prompt tem um forte impacto na saída.
Gerar imagens de IA é simples: você coloca texto em um campo de texto. A entrada pode ser curta ou detalhada. Seu prompt tem um forte impacto na saída.

Abaixo do campo de entrada, você também pode fazer o upload de sua própria imagem – contanto que ela não mostre uma pessoa real. A partir das imagens enviadas e das imagens recém-criadas, o DALL-E 2 pode gerar variantes. Isso torna relativamente fácil criar imagens inspiradas em temas existentes que podem então ser editadas ainda mais. Dessa forma, o sistema de IA pode ser controlado de forma ainda mais precisa.

Um clique em uma imagem abre a visualização detalhada. Aqui, variações podem ser criadas ou a imagem pode ser editada.
Um clique em uma imagem abre a visualização detalhada. Aqui, variações podem ser criadas ou a imagem pode ser editada.

Além disso, a função de edição pode ser usada para marcar uma área na imagem, que pode então ser alterada pelo DALL-E 2. Para isso, basta descrever o resultado desejado novamente por meio de um prompt de texto.

A área a ser editada pode ser marcada com um pincel.
A área a ser editada pode ser marcada com um pincel.

Em seguida, o DALL-E 2 gera três variantes da imagem original contendo as alterações correspondentes. Aqui, adicionei um elegante bigode à estátua.

Um bigode para um filósofo grego? Sem problema para o DALL-E 2.
Um bigode para um filósofo grego? Sem problema para o DALL-E 2.

O OpenAI DALL-E 2 e a engenharia de prompts

Como já é evidente a partir do exemplo da estátua antiga do pioneiro grego da realidade virtual, o DALL-E 2 pode ser controlado através de entrada de texto. A OpenAI treinou o sistema de IA com mais de 650 milhões de imagens – portanto, o DALL-E 2 viu e pode reproduzir inúmeros temas, estilos, exposições e outras propriedades de imagem.

Usando a chamada engenharia de prompts – o design da descrição de texto apropriada – o DALL-E 2 pode, por exemplo, gerar imagens fotorrealistas com diferentes especificações de lente para simular pequenas distâncias focais ou desfoque de movimento.

O DALL-E 2 pode reproduzir o estilo de imagem de diferentes câmeras, aqui o estilo Polaroid.
O DALL-E 2 pode reproduzir o estilo de imagem de diferentes câmeras, aqui o estilo Polaroid.

Com as descrições corretas, é possível capturar emoções, definir estruturas ou proporções, reproduzir estilos como steampunk ou cyberpunk, determinar ângulos de câmera e exposição, ou usar o design de séries de TV ou filmes como modelo.

O DALL-E 2 pode imitar numerosos estilos de ilustração, bem como arte 3D ou pinturas históricas. Essa capacidade de imitar estilos também é demonstrada pelo DALL-E 2 para diversos estilos artísticos, artistas individuais ou obras específicas.

Graças ao extenso treinamento, o DALL-E 2 também pode reproduzir estilos como o steampunk.
Graças ao extenso treinamento, o DALL-E 2 também pode reproduzir estilos como o steampunk.
O DALL-E 2 também pode imitar o estilo de artistas individuais ou pinturas específicas.
O DALL-E 2 também pode imitar o estilo de artistas individuais ou pinturas específicas.

Se você deseja capturar o estilo de uma obra de arte ou artista específico, também pode usar a ajuda da IA: no chamado “desmonte” (unbundling), você pode pedir a modelos como ChatGPT ou GPT-4 para descrever as características e o estilo de uma pintura. A resposta da IA pode ser usada para a engenharia de prompts.

Além de estátuas antigas, o DALL-E 2 também pode criar outros objetos – desde bordados até estátuas, corpos, animais de pelúcia, arquitetura ou cadeiras de designer, tudo está disponível.

Meio cachorro, meio Jedi, meio filósofo grego - o DALL-E 2 impressiona com interpretações significativas.
Meio cachorro, meio Jedi, meio filósofo grego – o DALL-E 2 impressiona com interpretações significativas.

DALL-E 2: Seis dicas para engenharia de prompts

Aspectos do PromptExplicação
PrecisãoUse descrições precisas para os objetos ou cenas desejados, por exemplo, “um husky branco brincando em uma floresta nevada”.
Adjetivos e advérbiosAdicione adjetivos e advérbios para fornecer mais detalhes, por exemplo, “uma bicicleta de estrada azul cintilante em uma trilha vazia”.
CriatividadeSeja criativo com seus prompts, por exemplo, “um cachorro feito de nuvens”.
ComparaçãoUse comparações para tornar suas ideias mais claras, por exemplo, “uma casa cuja cor é tão amarela quanto bananas maduras”.
ContextoConsidere o contexto em que as imagens serão usadas, por exemplo, fotos de borboletas coloridas para um livro infantil.
SimplicidadeMantenha seus prompts concisos e concentre-se em um ou dois elementos principais, por exemplo, o personagem principal e o cenário.

DALL-E 2: Edição externa de imagens e outpainting

Com a função de edição já introduzida, detalhes na imagem podem ser alterados, como adicionar um bigode, substituir objetos ou todo o fundo.

Uma vez que as imagens geradas também podem ser baixadas, um programa de edição de imagens externo pode ser usado para obter ainda mais do DALL-E 2. Na versão mais simples, nossa estátua do filósofo grego pode ser reduzida de tamanho e usada como base para uma nova imagem.

Com truques simples, as imagens podem ser editadas ainda mais. Aqui, por exemplo, você pode gerar uma estátua para combinar com a cabeça.
Com truques simples, as imagens podem ser editadas ainda mais. Aqui, por exemplo, você pode gerar uma estátua para combinar com a cabeça.

Pinturas podem ser adicionadas usando o mesmo método. O DALL-E 2 pode dar um corpo à Mona Lisa, e nosso filósofo grego de realidade virtual ganha companhia.

O DALL-E 2 adiciona o torso e o ambiente ao filósofo de realidade virtual, combinando com o estilo desejado. Com ajustes adicionais, os resultados podem ser refinados ainda mais.
O DALL-E 2 adiciona o torso e o ambiente ao filósofo de realidade virtual, combinando com o estilo desejado. Com ajustes adicionais, os resultados podem ser refinados ainda mais.

Se você repetir esse processo várias vezes, pode ampliar cada vez mais – alguns artistas já criam impressionantes jornadas através de mundos DALL-E 2 ou murais gigantes.

Ao combinar o processamento de imagem externo, engenharia inteligente de prompts e a função de edição do DALL-E 2, muitas outras aplicações são possíveis.

Se você quiser se aprofundar, deve conferir o Livro de Prompts do DALL-E 2, escrito por Guy Parsons. Ele fornece uma visão abrangente de muitas das dicas de engenharia de prompts descobertas até agora, além de métodos adicionais para aproveitar ao máximo o DALL-E 2. Muitas dessas dicas também podem ser aplicadas ao Midjourney ou Stable Diffusion.

Quanto ao DALL-E 3, ainda não sabemos ao certo, mas a OpenAI já está pesquisando arquiteturas alternativas para modelos de IA generativos, como os modelos de consistência.