DALL-E 2 d’OpenAI témoigne d’une créativité impressionnante en matière d’IA – à condition de savoir comment la contrôler. Une petite visite de DALL-E 2 en 2023.

DALL-E 2 d’OpenAI a été le pionnier des modèles d’IA générative et la première offre de conversion de texte en image sur le marché. Beaucoup de choses se sont passées depuis : des alternatives comme Midjourney sont apparues, qui produisent généralement de meilleurs résultats avec des invites moins compliquées, et le modèle sous-jacent est régulièrement amélioré. Il existe également une alternative open source avec Stable Diffusion et Stable Diffusion XL.

Mais avec les bonnes invites et pour des applications spéciales comme l’inpainting, DALL-E peut encore être utile. Exemple : DALL-E convertit mon invite « une statue antique d’un philosophe grec portant un casque de réalité virtuelle, réaliste, photographie, 2023 » en une image appropriée – bien que de faible résolution – mais Midjourney refuse d’ajouter un casque de réalité virtuelle à la statue de résolution beaucoup plus élevée.

O Midjourney cria uma imagem altamente realista, mas não captura o assunto desejado.
Midjourney crée une image très réaliste, mais ne parvient pas à capturer le sujet souhaité.
O DALL-E implementa o prompt, mas a qualidade não se compara ao Midjourney.
Le DALL-E met en œuvre l’invite, mais la qualité n’est pas comparable à celle de Midjourney.

Dans ce qui suit, j’aimerais donner un bref aperçu des fonctions de DALL-E 2 et des principes de base de l’ingénierie de l’invite.

OpenAI DALL-E 2 peut créer, éditer ou modifier des images

L’interface utilisateur de DALL-E 2 est très simple : via un champ de saisie, vous pouvez entrer votre commande d’image textuelle, appelée « prompt », et l’envoyer au système d’IA en appuyant sur « Generate ». Après une courte attente, quatre images générées s’affichent.

Gerar imagens de IA é simples: você coloca texto em um campo de texto. A entrada pode ser curta ou detalhada. Seu prompt tem um forte impacto na saída.
La génération d’images d’IA est simple : il suffit de saisir du texte dans un champ de texte. La saisie peut être courte ou détaillée. Votre texte a un impact important sur le résultat.

Sous le champ de saisie, vous pouvez également télécharger votre propre image, à condition qu’elle ne représente pas une personne réelle. À partir des images téléchargées et des images nouvellement créées, DALL-E 2 peut générer des variantes. Il est ainsi relativement facile de créer des images inspirées de thèmes existants, qui peuvent ensuite être modifiées. De cette manière, le système d’intelligence artificielle peut être contrôlé de manière encore plus précise.

Um clique em uma imagem abre a visualização detalhada. Aqui, variações podem ser criadas ou a imagem pode ser editada.
Un clic sur une image ouvre la visualisation détaillée. Il est alors possible de créer des variations ou de modifier l’image.

En outre, la fonction d’édition permet de marquer une zone de l’image, qui peut ensuite être modifiée par DALL-E 2. Pour ce faire, il suffit de décrire à nouveau le résultat souhaité à l’aide d’une invite de texte.

A área a ser editada pode ser marcada com um pincel.
La zone à modifier peut être marquée à l’aide d’un pinceau.

DALL-E 2 génère alors trois variantes de l’image originale contenant les modifications correspondantes. Ici, j’ai ajouté une élégante moustache à la statue.

Um bigode para um filósofo grego? Sem problema para o DALL-E 2.
Une moustache pour un philosophe grec ? Aucun problème pour DALL-E 2.

OpenAI DALL-E 2 et l’ingénierie rapide

Comme le montre l’exemple de la statue antique du pionnier grec de la réalité virtuelle, DALL-E 2 peut être commandé par saisie de texte. OpenAI a entraîné le système d’IA avec plus de 650 millions d’images – DALL-E 2 a donc vu et peut reproduire un nombre incalculable de thèmes, de styles, d’expositions et d’autres propriétés d’images.

En utilisant ce que l’on appelle l’ingénierie de la demande – la conception de la description textuelle appropriée – DALL-E 2 peut, par exemple, générer des images photoréalistes avec différentes spécifications d’objectif pour simuler de petites longueurs focales ou un flou de mouvement.

O DALL-E 2 pode reproduzir o estilo de imagem de diferentes câmeras, aqui o estilo Polaroid.
DALL-E 2 peut reproduire le style d’image de différents appareils photo, ici le style Polaroid.

Avec les bonnes descriptions, il est possible de capturer des émotions, de définir des structures ou des proportions, de reproduire des styles tels que le steampunk ou le cyberpunk, de déterminer les angles de prise de vue et l’exposition, ou d’utiliser le design de séries télévisées ou de films comme modèle.

DALL-E 2 peut imiter de nombreux styles d’illustration, ainsi que l’art 3D ou les peintures historiques. Cette capacité à imiter des styles est également démontrée par DALL-E 2 pour divers styles artistiques, des artistes individuels ou des œuvres spécifiques.

Graças ao extenso treinamento, o DALL-E 2 também pode reproduzir estilos como o steampunk.
Grâce à une formation approfondie, DALL-E 2 peut également reproduire des styles tels que le steampunk.
O DALL-E 2 também pode imitar o estilo de artistas individuais ou pinturas específicas.
Le DALL-E 2 peut également imiter le style d’artistes individuels ou de peintures spécifiques.

Si vous souhaitez saisir le style d’une œuvre d’art ou d’un artiste spécifique, vous pouvez également utiliser l’aide de l’IA : dans ce que l’on appelle ledégroupage, vous pouvez demander à des modèles tels que ChatGPT ou GPT-4 de décrire les caractéristiques et le style d’une peinture. La réponse de l’IA peut être utilisée pour l’ingénierie rapide.

Outre les statues antiques, DALL-E 2 peut également créer d’autres objets : des broderies aux statues, en passant par les corps, les animaux en peluche, l’architecture ou les chaises design, tout est disponible.

Meio cachorro, meio Jedi, meio filósofo grego - o DALL-E 2 impressiona com interpretações significativas.
Moitié chien, moitié Jedi, moitié philosophe grec, DALL-E 2 impressionne par ses interprétations pleines de sens.

DALL-E 2 : Six conseils pour l’ingénierie d’incitation

Aspects de l’appel d’offresExplication
PrécisionUtilisez des descriptions précises pour les objets ou les scènes souhaités, par exemple « un husky blanc jouant dans une forêt enneigée ».
Adjectifs et adverbesAjoutez des adjectifs et des adverbes pour fournir plus de détails, par exemple « un vélo de route bleu étincelant sur une piste vide ».
CréativitéFaites preuve de créativité avec vos questions, par exemple « un chien fait de nuages ».
ComparaisonUtilisez des comparaisons pour rendre vos idées plus claires, par exemple « une maison dont la couleur est aussi jaune que des bananes mûres ».
Le contextePensez au contexte dans lequel les images seront utilisées, par exemple des images de papillons colorés pour un livre pour enfants.
SimplicitéRestez concis et concentrez-vous sur un ou deux éléments principaux, par exemple le personnage principal et le décor.

DALL-E 2 : Édition d’images externes et surpeinture

La fonction d’édition déjà présentée permet de modifier des détails de l’image, comme l’ajout d’une moustache, le remplacement d’objets ou de l’ensemble de l’arrière-plan.

Comme les images générées peuvent également être téléchargées, un programme d’édition d’images externe peut être utilisé pour obtenir encore plus de DALL-E 2. Dans la version la plus simple, notre statue du philosophe grec peut être réduite en taille et utilisée comme base pour une nouvelle image.

Com truques simples, as imagens podem ser editadas ainda mais. Aqui, por exemplo, você pode gerar uma estátua para combinar com a cabeça.
Grâce à des astuces simples, les images peuvent être modifiées encore davantage. Ici, par exemple, vous pouvez générer une statue correspondant à la tête.

La même méthode permet d’ajouter des peintures. DALL-E 2 peut donner un corps à la Joconde, et notre philosophe grecque de la réalité virtuelle se fait accompagner.

O DALL-E 2 adiciona o torso e o ambiente ao filósofo de realidade virtual, combinando com o estilo desejado. Com ajustes adicionais, os resultados podem ser refinados ainda mais.
DALL-E 2 ajoute le torse et l’environnement au philosophe de la réalité virtuelle, en respectant le style souhaité. Des ajustements supplémentaires permettent d’affiner encore les résultats.

Si vous répétez ce processus plusieurs fois, vous pouvez zoomer de plus en plus loin – certains artistes créent déjà des voyages impressionnants dans les mondes de DALL-E 2 ou des peintures murales géantes.

En combinant le traitement externe de l’image, l’ingénierie intelligente de l’invite et la fonction d’édition de DALL-E 2, de nombreuses autres applications sont possibles.

Si vous souhaitez aller plus loin, nous vous conseillons de consulter le DALL-E 2 Prompts Book écrit par Guy Parsons. Il fournit une vue d’ensemble complète des astuces d’ingénierie des messages découvertes jusqu’à présent, ainsi que des méthodes supplémentaires pour tirer le meilleur parti de DALL-E 2. Beaucoup de ces astuces peuvent également être appliquées à Midjourney ou Stable Diffusion.

En ce qui concerne DALL-E 3, nous n’en sommes pas encore sûrs, mais l’OpenAI étudie déjà des architectures alternatives pour les modèles d’IA générative, tels que les modèles de cohérence.