ChatGPT est passé par GPT-4V et peut désormais analyser les graphiques, les photos et tous les autres types de contenu visuel. De nouvelles possibilités s’offrent ainsi à lui.

Environ six mois après avoir annoncé la version multimodale de GPT-4, désormais appelée GPT-4V(ision), OpenAI met enfin cette fonctionnalité à la disposition des clients payants de ChatGPT. En peu de temps, les utilisateurs ont exploré les possibilités offertes par ChatGPT en combinant images et textes. Voici les exemples les plus intéressants que nous avons trouvés jusqu’à présent.

Développement frontal

L’un des cas d’utilisation les plus populaires pour les grands modèles de langage est la programmation. C’est là que les nouvelles fonctionnalités multimodales de ChatGPT entrent en jeu. Par exemple, GPT-4V peut reconstruire le tableau de bord d’un site web à partir de captures d’écran ou de dessins.

Vidéo : @mckaywrigley/Twitter

L’outil d’IA semble imiter presque parfaitement la structure donnée, même en prenant les données du modèle 1:1 comme points de repère. Seuls les détails de conception tels que les couleurs, les formes et les polices sont différents. Toutefois, dans ce domaine, GPT-4V peut réduire considérablement le temps de développement entre la conception et le prototype.

Vidéo : @mckaywrigley/Twitter

Matt Shumer, PDG de la startup HyperWrite spécialisée dans l’IA, est allé encore plus loin en combinant GPT-4V avec le concept d’AutoGPT. Dans ce cas, l’IA utilise le résultat d’une exécution comme une invite pour l’exécution suivante, ce qui lui permet d’améliorer continuellement le code par elle-même.

Vidéo : @mattshumer_/Twitter

Expliquer les bandes dessinées, les mèmes ou les infographies

GPT-4V peut expliquer ce qui est montré et ce que signifie une image. Qu’il s’agisse d’un dessin animé, d’une bande dessinée ou d’un mème Twitter, ChatGPT décrit d’abord l’image en détail, y compris les légendes, puis explique, par exemple dans le cas d’images humoristiques, pourquoi le contenu peut être considéré comme drôle.

Explicar quadrinhos, memes ou infográficos

Twitter : @skirano/Twitter

Explicar quadrinhos, memes ou infográficos

Bild : @rcweston/Twitter

Aide aux devoirs

L’IA joue un rôle important dans l’éducation, notamment parce que les étudiants utilisent ChatGPT et d’autres outils similaires. La multimodalité peut avoir un impact important sur l’utilité des grands modèles de langage dans ce contexte.

Comme le démontre Mckay Wrigley sur Twitter, GPT-4V peut facilement analyser des infographies complexes telles que l’étiquetage d’une cellule humaine. Dans son exemple, la cellule est expliquée à un niveau de classe de troisième et il peut poser des questions plus approfondies.

Vidéo : @mckaywrigley/Twitter

Le modèle peut également décomposer les infographies en explications textuelles simples, comme le montre Muratcan Koylan.

Ajudando na lição de casa

image : Muratcan Koylan/@youraimarketer

Donner des conseils sur la décoration d’intérieur ou visualiser les effets des champignons psychédéliques

Outre les graphiques, le GPT-4V peut également traiter des photos ou des images générées par l’IA. Dans cet exemple, Pietro Schirano, un utilisateur de Twitter, a fourni des images générées par l’IA et a demandé à ChatGPT un nom pour ce style d’intérieur, que l’IA a rapidement fourni avec une explication raisonnable.

Dê conselhos sobre design de interiores ou visualize os efeitos dos cogumelos psicodélicos

Image : @skirano/Twitter

M. Schirano souligne le potentiel de l’IA personnalisée à l’aide d’un autre exemple. Il a enregistré certaines informations le concernant dans les instructions personnalisées, dont ChatGPT tient compte lors de l’évaluation de son intérieur.

Dê conselhos sobre design de interiores ou visualize os efeitos dos cogumelos psicodélicos

Image : @skirano/Twitter

L’exemple suivant montre une combinaison intéressante entre l’exemple d’image, la description de l’image et la génération de l’image résultante : l’utilisateur de Twitter Pietro Schirano montre d’abord à GPT-4V une photo de champignons psychédéliques. Sans dire au système de quels champignons il s’agit, il demande à GPT-4V ce qu’il ressentirait après les avoir mangés.

Dê conselhos sobre design de interiores ou visualize os efeitos dos cogumelos psicodélicos

Le système fournit une description appropriée et peut ensuite définir les hallucinations comme il le souhaite dans une invite d’image qui génère le résultat suivant via DALL-E 2.

dall e 2 mushrooms
Image : Pietro Schirano/@skirano

Avec le lancement de DALL-E 3 en octobre pour tous les utilisateurs payants de ChatGPT, ce flux de travail devrait être possible directement dans ChatGPT Plus, et avec une qualité nettement supérieure.

Déchiffrer une écriture illisible

L’OCR (reconnaissance optique de caractères) n’est qu’une petite partie de GPT-4V, mais ses capacités sont immenses. Les historiens seront peut-être intéressés d’apprendre que le GPT-4V peut déchiffrer et traduire des manuscrits historiques. « Les sciences humaines sont sur le point de changer radicalement », déclare le chercheur Ethan Mollick après avoir utilisé le GPT-4V pour convertir, traduire et analyser les notes centenaires de Robert Hooke.

Decifrar escrita ilegível
Image : Ethan Mollick
Decifrar escrita ilegível
Image : Ethan Mollick

Comment utiliser le GPT-4V ?

GPT-4V nécessite un abonnement payant à ChatGPT-Plus pour 20 $ par mois. Une fois cet abonnement souscrit, vous pouvez télécharger des images via le site web et l’application pour smartphone. L’application vous permet de télécharger plusieurs images à la fois et de mettre en évidence des zones spécifiques de l’image. OpenAI lance actuellement GPT-4V par étapes. Par conséquent, même si vous avez un abonnement payant, il se peut que vous n’y ayez pas encore accès.