Les grands modèles de langage comprendront-ils les mots comme nous ? Un psychologue et un spécialiste des sciences cognitives se penchent sur la question.

Lorsque nous avons demandé à GPT-3, un système linguistique d’intelligence artificielle extrêmement puissant et populaire, si vous utiliseriez plus volontiers une carte en papier ou une pierre pour attiser les braises lors d’un barbecue, il a préféré la pierre.

Pour lisser votre jupe froissée, prendriez-vous un thermos chaud ou une épingle à cheveux ? GPT-3 a suggéré l’épingle à cheveux.

Et si vous devez vous couvrir les cheveux pour travailler dans un fast-food, qu’est-ce qui convient le mieux, un emballage de sandwich en papier ou un pain à hamburger ? Le TPG-3 a choisi le pain.

Pourquoi GPT-3 fait-il ces choix alors que la plupart des gens choisissent l’autre solution ? Parce que GPT-3 ne comprend pas le langage comme les humains.

Des mots sans corps

L’un d’entre nous est un chercheur en psychologie qui, il y a plus de 20 ans, a présenté une série de scénarios comme ceux décrits ci-dessus pour tester la compréhension d’un modèle informatique du langage de l’époque. Le modèle ne parvenait pas à choisir avec précision entre l’utilisation de pierres et de cartes pour attiser les braises, alors que les humains y parvenaient facilement.

L’autre est un doctorant en sciences cognitives qui a fait partie d’une équipe de chercheurs qui a récemment utilisé les mêmes scénarios pour tester le GPT-3. Bien que le GPT-3 ait fait mieux que l’ancien modèle, il a été nettement moins bon que les humains. Il s’est complètement trompé dans les trois scénarios mentionnés ci-dessus.

GPT-3, le moteur qui a permis le lancement initial de ChatGPT, apprend à connaître le langage en observant, à partir d’un trillion d’instances, quels mots ont tendance à suivre quels autres mots. Les fortes régularités statistiques dans les séquences linguistiques permettent à GPT-3 d’apprendre beaucoup de choses sur la langue. Et cette connaissance séquentielle permet généralement à ChatGPT de produire des phrases, des essais, des poèmes et des codes informatiques raisonnables.

Bien que GPT-3 soit extrêmement doué pour apprendre les règles de succession des mots dans le langage humain, il n’a aucune idée de la signification de ces mots pour un être humain. Et comment le pourrait-il ?

Les êtres humains sont des entités biologiques qui ont évolué avec des corps qui ont besoin d’opérer dans les mondes physique et social pour accomplir des tâches. Le langage est un outil qui aide les gens à le faire. GPT-3 est un logiciel artificiel qui prédit le mot suivant. Il n’a pas besoin de faire quoi que ce soit avec ces prédictions dans le monde réel.

Je suis, donc je comprends

Le sens d’un mot ou d’une phrase est étroitement lié au corps humain: les capacités d’agir, de percevoir et d’éprouver des émotions. La cognition humaine est renforcée par l’incarnation. La compréhension d’un terme tel que « papier d'emballage pour sandwich », par exemple, comprend l’aspect, la sensation et le poids de l'emballage et, par conséquent, l’usage que l’on peut en faire : emballer un sandwich. La compréhension des gens comprend également la façon dont on peut l’utiliser pour les innombrables autres possibilités qu’il offre, comme le rouler en boule pour une partie de cerceaux ou se couvrir les cheveux.

Toutes ces utilisations découlent de la nature du corps humain et de ses besoins : les gens ont des mains capables de plier du papier, une chevelure qui a à peu près la même taille qu’un emballage de sandwich et le besoin d’avoir un emploi et donc de suivre des règles telles que se couvrir les cheveux. En d’autres termes, les gens savent comment utiliser les choses d’une manière qui n’est pas prise en compte dans les statistiques sur l’utilisation des langues.

Le GPT-3, son successeur le GPT-4, et leurs cousins Bard, Chinchilla et LLaMA n’ont pas de corps et ne peuvent donc pas déterminer par eux-mêmes quels objets sont pliables, ou les nombreuses autres propriétés que le psychologue J.J. Gibson a appelées affordances. Avec des mains et des bras, les cartes en papier attisent les flammes et les thermos font des plis.

Sans bras ni mains, sans parler de la nécessité de porter des vêtements infroissables pour travailler, le GPT-3 ne peut pas déterminer ces affordances. Il ne peut les simuler que s’il a trouvé quelque chose de similaire dans le flux de mots sur l’internet.

Une grande IA modélisant le langage comprendra-t-elle le langage comme le font les humains ? À notre avis, pas sans avoir un corps humain, des sens, des objectifs et des modes de vie.

Vers une perception du monde

GPT-4 a été entraîné sur des images et des textes, ce qui lui a permis d’apprendre les relations statistiques entre les mots et les pixels. Bien que nous ne puissions pas effectuer notre analyse originale sur GPT-4 parce qu’il ne produit pas actuellement la probabilité qu’il attribue aux mots, lorsque nous avons posé les trois questions à GPT-4, il y a répondu correctement. Cela peut être dû au fait que le modèle a appris à partir des entrées précédentes ou à l’augmentation de la taille et de l’entrée visuelle.

Cependant, vous pouvez continuer à construire de nouveaux exemples pour le déstabiliser, en pensant à des objets qui ont des affordances surprenantes que le modèle n’a probablement pas rencontrées. Par exemple, le GPT-4 indique qu’un verre avec un fond découpé serait mieux adapté pour contenir de l’eau qu’une ampoule avec un fond découpé.

Un modèle ayant accès aux images pourrait ressembler à un enfant qui apprend le langage – et le monde – par la télévision : c’est plus facile que d’apprendre par la radio, mais la compréhension humaine nécessitera l’occasion cruciale d’interagir avec le monde.

Des recherches récentes ont adopté cette approche, en entraînant des modèles linguistiques à générer des simulations physiques, à interagir avec des environnements physiques et même à générer des plans d’action robotiques. La compréhension du langage incarné est peut-être encore loin, mais ce type de projets interactifs multisensoriels constitue une étape cruciale sur cette voie.

ChatGPT est un outil fascinant qui sera sans aucun doute utilisé à de bonnes – et moins bonnes – fins. Mais ne croyez pas qu’il comprenne les mots que vous prononcez, et encore moins qu’il soit sensible.

Sources : The Conversation, The Decoder : The Conversation, The Decoder