DALL-E 2 d’OpenAI témoigne d’une créativité impressionnante en matière d’IA – à condition de savoir comment la contrôler. Une petite visite de DALL-E 2 en 2023.
DALL-E 2 d’OpenAI a été le pionnier des modèles d’IA générative et la première offre de conversion de texte en image sur le marché. Beaucoup de choses se sont passées depuis : des alternatives comme Midjourney sont apparues, qui produisent généralement de meilleurs résultats avec des invites moins compliquées, et le modèle sous-jacent est régulièrement amélioré. Il existe également une alternative open source avec Stable Diffusion et Stable Diffusion XL.
Mais avec les bonnes invites et pour des applications spéciales comme l’inpainting, DALL-E peut encore être utile. Exemple : DALL-E convertit mon invite « une statue antique d’un philosophe grec portant un casque de réalité virtuelle, réaliste, photographie, 2023 » en une image appropriée – bien que de faible résolution – mais Midjourney refuse d’ajouter un casque de réalité virtuelle à la statue de résolution beaucoup plus élevée.
Dans ce qui suit, j’aimerais donner un bref aperçu des fonctions de DALL-E 2 et des principes de base de l’ingénierie de l’invite.
OpenAI DALL-E 2 peut créer, éditer ou modifier des images
L’interface utilisateur de DALL-E 2 est très simple : via un champ de saisie, vous pouvez entrer votre commande d’image textuelle, appelée « prompt », et l’envoyer au système d’IA en appuyant sur « Generate ». Après une courte attente, quatre images générées s’affichent.
Sous le champ de saisie, vous pouvez également télécharger votre propre image, à condition qu’elle ne représente pas une personne réelle. À partir des images téléchargées et des images nouvellement créées, DALL-E 2 peut générer des variantes. Il est ainsi relativement facile de créer des images inspirées de thèmes existants, qui peuvent ensuite être modifiées. De cette manière, le système d’intelligence artificielle peut être contrôlé de manière encore plus précise.
En outre, la fonction d’édition permet de marquer une zone de l’image, qui peut ensuite être modifiée par DALL-E 2. Pour ce faire, il suffit de décrire à nouveau le résultat souhaité à l’aide d’une invite de texte.
DALL-E 2 génère alors trois variantes de l’image originale contenant les modifications correspondantes. Ici, j’ai ajouté une élégante moustache à la statue.
OpenAI DALL-E 2 et l’ingénierie rapide
Comme le montre l’exemple de la statue antique du pionnier grec de la réalité virtuelle, DALL-E 2 peut être commandé par saisie de texte. OpenAI a entraîné le système d’IA avec plus de 650 millions d’images – DALL-E 2 a donc vu et peut reproduire un nombre incalculable de thèmes, de styles, d’expositions et d’autres propriétés d’images.
En utilisant ce que l’on appelle l’ingénierie de la demande – la conception de la description textuelle appropriée – DALL-E 2 peut, par exemple, générer des images photoréalistes avec différentes spécifications d’objectif pour simuler de petites longueurs focales ou un flou de mouvement.
Avec les bonnes descriptions, il est possible de capturer des émotions, de définir des structures ou des proportions, de reproduire des styles tels que le steampunk ou le cyberpunk, de déterminer les angles de prise de vue et l’exposition, ou d’utiliser le design de séries télévisées ou de films comme modèle.
DALL-E 2 peut imiter de nombreux styles d’illustration, ainsi que l’art 3D ou les peintures historiques. Cette capacité à imiter des styles est également démontrée par DALL-E 2 pour divers styles artistiques, des artistes individuels ou des œuvres spécifiques.
Si vous souhaitez saisir le style d’une œuvre d’art ou d’un artiste spécifique, vous pouvez également utiliser l’aide de l’IA : dans ce que l’on appelle ledégroupage, vous pouvez demander à des modèles tels que ChatGPT ou GPT-4 de décrire les caractéristiques et le style d’une peinture. La réponse de l’IA peut être utilisée pour l’ingénierie rapide.
Outre les statues antiques, DALL-E 2 peut également créer d’autres objets : des broderies aux statues, en passant par les corps, les animaux en peluche, l’architecture ou les chaises design, tout est disponible.
DALL-E 2 : Six conseils pour l’ingénierie d’incitation
Aspects de l’appel d’offres | Explication |
---|---|
Précision | Utilisez des descriptions précises pour les objets ou les scènes souhaités, par exemple « un husky blanc jouant dans une forêt enneigée ». |
Adjectifs et adverbes | Ajoutez des adjectifs et des adverbes pour fournir plus de détails, par exemple « un vélo de route bleu étincelant sur une piste vide ». |
Créativité | Faites preuve de créativité avec vos questions, par exemple « un chien fait de nuages ». |
Comparaison | Utilisez des comparaisons pour rendre vos idées plus claires, par exemple « une maison dont la couleur est aussi jaune que des bananes mûres ». |
Le contexte | Pensez au contexte dans lequel les images seront utilisées, par exemple des images de papillons colorés pour un livre pour enfants. |
Simplicité | Restez concis et concentrez-vous sur un ou deux éléments principaux, par exemple le personnage principal et le décor. |
DALL-E 2 : Édition d’images externes et surpeinture
La fonction d’édition déjà présentée permet de modifier des détails de l’image, comme l’ajout d’une moustache, le remplacement d’objets ou de l’ensemble de l’arrière-plan.
Comme les images générées peuvent également être téléchargées, un programme d’édition d’images externe peut être utilisé pour obtenir encore plus de DALL-E 2. Dans la version la plus simple, notre statue du philosophe grec peut être réduite en taille et utilisée comme base pour une nouvelle image.
La même méthode permet d’ajouter des peintures. DALL-E 2 peut donner un corps à la Joconde, et notre philosophe grecque de la réalité virtuelle se fait accompagner.
Si vous répétez ce processus plusieurs fois, vous pouvez zoomer de plus en plus loin – certains artistes créent déjà des voyages impressionnants dans les mondes de DALL-E 2 ou des peintures murales géantes.
En combinant le traitement externe de l’image, l’ingénierie intelligente de l’invite et la fonction d’édition de DALL-E 2, de nombreuses autres applications sont possibles.
Si vous souhaitez aller plus loin, nous vous conseillons de consulter le DALL-E 2 Prompts Book écrit par Guy Parsons. Il fournit une vue d’ensemble complète des astuces d’ingénierie des messages découvertes jusqu’à présent, ainsi que des méthodes supplémentaires pour tirer le meilleur parti de DALL-E 2. Beaucoup de ces astuces peuvent également être appliquées à Midjourney ou Stable Diffusion.
En ce qui concerne DALL-E 3, nous n’en sommes pas encore sûrs, mais l’OpenAI étudie déjà des architectures alternatives pour les modèles d’IA générative, tels que les modèles de cohérence.