Ferramentas, Inteligência Artificial

Guia de Prompt do OpenAI DALL-E 2: Como usar o modelo de IA generativa

Atualizado em 23/07/2023

Faça parte da comunidade

Entre para nossa lista e receba conteúdos exclusivos

O DALL-E 2 da OpenAI mostra uma impressionante criatividade de IA – se você souber como controlá-lo. Um pequeno passeio pelo DALL-E 2 em 2023.

O DALL-E 2 da OpenAI foi pioneiro em modelos de IA generativa e foi a primeira oferta de texto para imagem no mercado. Muita coisa aconteceu desde então: surgiram alternativas como o Midjourney, que geralmente produzem resultados melhores com prompts menos complicados, e o modelo subjacente é aprimorado regularmente. Há também uma alternativa de código aberto com o Stable Diffusion e o Stable Diffusion XL.

Mas, com os prompts corretos e para aplicações especiais como inpainting, o DALL-E ainda pode ser útil. Um exemplo: o DALL-E converte meu prompt “uma estátua antiga de um filósofo grego usando um headset de realidade virtual, realista, fotografia, 2023” em uma imagem adequada – embora de baixa resolução – mas o Midjourney se recusa a adicionar um headset de realidade virtual na estátua de resolução muito maior.

O Midjourney cria uma imagem altamente realista, mas não captura o assunto desejado.

O DALL-E implementa o prompt, mas a qualidade não se compara ao Midjourney.

A seguir, gostaria de fornecer uma breve visão das funções do DALL-E 2 e dos princípios básicos de engenharia de prompts.

O OpenAI DALL-E 2 pode criar, editar ou modificar imagens

A interface do usuário do DALL-E 2 é mantida simples: através de um campo de entrada, você pode inserir o seu comando de imagem de texto, o chamado “prompt”, e enviá-lo para o sistema de IA pressionando “Gerar”. Após uma curta espera, quatro imagens geradas são exibidas.

Gerar imagens de IA é simples: você coloca texto em um campo de texto. A entrada pode ser curta ou detalhada. Seu prompt tem um forte impacto na saída.

Abaixo do campo de entrada, você também pode fazer o upload de sua própria imagem – contanto que ela não mostre uma pessoa real. A partir das imagens enviadas e das imagens recém-criadas, o DALL-E 2 pode gerar variantes. Isso torna relativamente fácil criar imagens inspiradas em temas existentes que podem então ser editadas ainda mais. Dessa forma, o sistema de IA pode ser controlado de forma ainda mais precisa.

Um clique em uma imagem abre a visualização detalhada. Aqui, variações podem ser criadas ou a imagem pode ser editada.

Além disso, a função de edição pode ser usada para marcar uma área na imagem, que pode então ser alterada pelo DALL-E 2. Para isso, basta descrever o resultado desejado novamente por meio de um prompt de texto.

A área a ser editada pode ser marcada com um pincel.

Em seguida, o DALL-E 2 gera três variantes da imagem original contendo as alterações correspondentes. Aqui, adicionei um elegante bigode à estátua.

Um bigode para um filósofo grego? Sem problema para o DALL-E 2.

O OpenAI DALL-E 2 e a engenharia de prompts

Como já é evidente a partir do exemplo da estátua antiga do pioneiro grego da realidade virtual, o DALL-E 2 pode ser controlado através de entrada de texto. A OpenAI treinou o sistema de IA com mais de 650 milhões de imagens – portanto, o DALL-E 2 viu e pode reproduzir inúmeros temas, estilos, exposições e outras propriedades de imagem.

Usando a chamada engenharia de prompts – o design da descrição de texto apropriada – o DALL-E 2 pode, por exemplo, gerar imagens fotorrealistas com diferentes especificações de lente para simular pequenas distâncias focais ou desfoque de movimento.

O DALL-E 2 pode reproduzir o estilo de imagem de diferentes câmeras, aqui o estilo Polaroid.

Com as descrições corretas, é possível capturar emoções, definir estruturas ou proporções, reproduzir estilos como steampunk ou cyberpunk, determinar ângulos de câmera e exposição, ou usar o design de séries de TV ou filmes como modelo.

O DALL-E 2 pode imitar numerosos estilos de ilustração, bem como arte 3D ou pinturas históricas. Essa capacidade de imitar estilos também é demonstrada pelo DALL-E 2 para diversos estilos artísticos, artistas individuais ou obras específicas.

Graças ao extenso treinamento, o DALL-E 2 também pode reproduzir estilos como o steampunk.

O DALL-E 2 também pode imitar o estilo de artistas individuais ou pinturas específicas.

Se você deseja capturar o estilo de uma obra de arte ou artista específico, também pode usar a ajuda da IA: no chamado “desmonte” (unbundling), você pode pedir a modelos como ChatGPT ou GPT-4 para descrever as características e o estilo de uma pintura. A resposta da IA pode ser usada para a engenharia de prompts.

Além de estátuas antigas, o DALL-E 2 também pode criar outros objetos – desde bordados até estátuas, corpos, animais de pelúcia, arquitetura ou cadeiras de designer, tudo está disponível.

Meio cachorro, meio Jedi, meio filósofo grego - o DALL-E 2 impressiona com interpretações significativas. — Meio cachorro, meio Jedi, meio filósofo grego – o DALL-E 2 impressiona com interpretações significativas.

DALL-E 2: Seis dicas para engenharia de prompts

Aspectos do Prompt	Explicação
Precisão	Use descrições precisas para os objetos ou cenas desejados, por exemplo, “um husky branco brincando em uma floresta nevada”.
Adjetivos e advérbios	Adicione adjetivos e advérbios para fornecer mais detalhes, por exemplo, “uma bicicleta de estrada azul cintilante em uma trilha vazia”.
Criatividade	Seja criativo com seus prompts, por exemplo, “um cachorro feito de nuvens”.
Comparação	Use comparações para tornar suas ideias mais claras, por exemplo, “uma casa cuja cor é tão amarela quanto bananas maduras”.
Contexto	Considere o contexto em que as imagens serão usadas, por exemplo, fotos de borboletas coloridas para um livro infantil.
Simplicidade	Mantenha seus prompts concisos e concentre-se em um ou dois elementos principais, por exemplo, o personagem principal e o cenário.

DALL-E 2: Edição externa de imagens e outpainting

Com a função de edição já introduzida, detalhes na imagem podem ser alterados, como adicionar um bigode, substituir objetos ou todo o fundo.

Uma vez que as imagens geradas também podem ser baixadas, um programa de edição de imagens externo pode ser usado para obter ainda mais do DALL-E 2. Na versão mais simples, nossa estátua do filósofo grego pode ser reduzida de tamanho e usada como base para uma nova imagem.

Com truques simples, as imagens podem ser editadas ainda mais. Aqui, por exemplo, você pode gerar uma estátua para combinar com a cabeça.

Pinturas podem ser adicionadas usando o mesmo método. O DALL-E 2 pode dar um corpo à Mona Lisa, e nosso filósofo grego de realidade virtual ganha companhia.

O DALL-E 2 adiciona o torso e o ambiente ao filósofo de realidade virtual, combinando com o estilo desejado. Com ajustes adicionais, os resultados podem ser refinados ainda mais.

Se você repetir esse processo várias vezes, pode ampliar cada vez mais – alguns artistas já criam impressionantes jornadas através de mundos DALL-E 2 ou murais gigantes.

Worlds Within Worlds #aiart #dalle2 #aianimation #animation #dalle #infinitezoom #loop #fantasy #scifi pic.twitter.com/LB8eo2GZof
— Michael Carychao (@MichaelCarychao) May 22, 2022

Inpainting with DALL·E 2 is super fun. With some ingenuity, you can create arbitrarily large artwork like the murals shown below – which I assume are the largest #dalle-produced images created so far. pic.twitter.com/DDQUMSmgYq
— David Schnurr (@_dschnurr) April 19, 2022

Ao combinar o processamento de imagem externo, engenharia inteligente de prompts e a função de edição do DALL-E 2, muitas outras aplicações são possíveis.

Se você quiser se aprofundar, deve conferir o Livro de Prompts do DALL-E 2, escrito por Guy Parsons. Ele fornece uma visão abrangente de muitas das dicas de engenharia de prompts descobertas até agora, além de métodos adicionais para aproveitar ao máximo o DALL-E 2. Muitas dessas dicas também podem ser aplicadas ao Midjourney ou Stable Diffusion.

Quanto ao DALL-E 3, ainda não sabemos ao certo, mas a OpenAI já está pesquisando arquiteturas alternativas para modelos de IA generativos, como os modelos de consistência.

André Lug

Fundador da Iglu Online e escritor do blog André Lug. Como especialista em Inteligência Artificial e criação de conteúdo, traz conteúdos sobre IA, produtividade e empreendedorismo.