Les meilleurs modèles de langage imitent la conversation humaine, mais les scientifiques ne sont pas d’accord sur leur capacité à raisonner.

Les meilleurs systèmes d’intelligence artificielle (IA) du monde peuvent réussir des examens difficiles, rédiger des essais humains convaincants et converser avec une telle fluidité que beaucoup considèrent qu’il est impossible de distinguer leurs résultats de ceux des humains. Que ne peuvent-ils pas faire ? Résoudre des énigmes logiques visuelles simples.

Dans un test consistant en une série de blocs colorés disposés sur un écran, la plupart des gens peuvent identifier les motifs de connexion. Mais GPT-4, la version la plus avancée du système d’intelligence artificielle à l’origine du chatbot ChatGPT et du moteur de recherche Bing, ne parvient à résoudre qu’un tiers des énigmes dans une catégorie de motifs et seulement 3 % dans une autre, selon un rapport publié par des chercheurs en mai de cette année.

L’équipe à l’origine des puzzles logiques vise à fournir un meilleur point de référence pour tester les capacités des systèmes d’intelligence artificielle et à répondre à un dilemme concernant les grands modèles de langage tels que le GPT-4. Testés d’une certaine manière, ils réussissent facilement des tâches qui étaient autrefois considérées comme des jalons de l’intelligence artificielle. D’un autre côté, ils semblent moins impressionnants, présentant de larges zones d’ombre et une incapacité à raisonner sur des concepts abstraits.

« Les spécialistes de l’intelligence artificielle ont du mal à évaluer ces systèmes », explique Melanie Mitchell, informaticienne à l’Institut de Santa Fe, au Nouveau-Mexique, dont l’équipe a créé les puzzles logiques.

Au cours des deux ou trois dernières années, les grands modèles de langage (LLM) ont largement dépassé les systèmes d’IA précédents en termes de capacité à accomplir diverses tâches. Ils fonctionnent en générant simplement des mots suivants plausibles lorsqu’on leur fournit un texte en entrée, sur la base des corrélations statistiques entre les mots dans des milliards de phrases en ligne sur lesquelles ils ont été entraînés. Pour les chatbots construits sur la base des LLM, il y a un élément supplémentaire : des formateurs humains ont fourni un retour d’information important pour affiner la façon dont les bots répondent.

Ce qui est frappant, c’est l’étendue des capacités qui émergent de cet algorithme de type autocomplétion, formé sur de vastes bases de données de langage humain. D’autres systèmes d’IA peuvent surpasser les LLM dans n’importe quelle tâche, mais ils doivent être formés sur des données relatives à un problème spécifique et ne peuvent pas se généraliser d’une tâche à l’autre.

D’une manière générale, deux groupes de chercheurs ont des points de vue opposés sur ce qui se passe sous la surface des LLM, explique Tomer Ullman, chercheur en sciences cognitives à l’université Harvard de Cambridge, dans le Massachusetts. Certains attribuent les performances des algorithmes à des indices de raisonnement ou de compréhension. D’autres (dont lui-même et des chercheurs comme Mitchell) sont beaucoup plus prudents.

« Il y a des gens très intelligents des deux côtés de ce débat », affirme M. Ullman. La raison de ce clivage, selon lui, est l’absence de preuves concluantes pour étayer l’un ou l’autre point de vue. il n’existe pas de compteur Geiger qui nous permette de pointer quelque chose et de dire « bip bip bip – oui, c’est intelligent » », ajoute M. Ullman.

Des tests tels que les puzzles logiques, qui révèlent les différences entre les capacités des personnes et celles des systèmes d’IA, constituent un pas dans la bonne direction, affirment les chercheurs des deux camps. Selon Brenden Lake, informaticien cognitif à l’université de New York, ces tests de référence peuvent également contribuer à montrer ce qui manque aujourd’hui aux systèmes d’apprentissage automatique et à dévoiler les ingrédients de l’intelligence humaine.

La recherche sur la meilleure façon de tester les LLM et sur les résultats de ces tests présente également un intérêt pratique. Si les LLM doivent être appliqués dans des domaines réels – de la médecine au droit – il est important de comprendre les limites de leurs capacités, explique M. Mitchell. « Nous devons comprendre ce qu’ils peuvent faire et où ils échouent, afin de savoir comment les utiliser en toute sécurité

Le test de Turing est-il mort ?

Le test le plus célèbre de l’intelligence artificielle est le test de Turing, proposé par le mathématicien britannique Alan Turing en 1950, alors que les ordinateurs n’en étaient qu’à leurs balbutiements. Turing a proposé une évaluation qu’il a appelée le « jeu de l’imitation2 ». Dans ce scénario, des juges humains mènent de courtes conversations textuelles avec un ordinateur caché et une personne invisible. Le juge peut-il détecter de manière fiable lequel des deux est l’ordinateur ? Il s’agit d’une question équivalente à « Les machines peuvent-elles penser ? », a suggéré Turing.

M. Turing n’a pas donné beaucoup de détails sur le scénario, note M. Mitchell, de sorte qu’il n’y a pas de règles précises à suivre. « Il ne s’agissait pas d’un test littéral à effectuer sur la machine, mais plutôt d’une expérience de pensée », explique François Chollet, ingénieur logiciel chez Google, à Seattle, dans l’État de Washington.

teste de turing
Crédit : Geopix/Alamy

Mais l’idée d’utiliser le langage pour déterminer si une machine est capable de penser a perduré. Pendant plusieurs décennies, l’homme d’affaires et philanthrope Hugh Loebner a financé un test de Turing annuel connu sous le nom de Prix Loebner. Des juges humains participaient à des dialogues textuels avec des machines et des personnes, essayant de deviner qui était qui. Selon l’informaticien Rob Wortham, ces rencontres annuelles ont été interrompues après 2019 en raison du décès de Loebner et de l’épuisement des fonds nécessaires à leur poursuite. Il est codirecteur de la UK Society for the Study of Artificial Intelligence and Behaviour Simulation (Société britannique pour l’étude de l’intelligence artificielle et de la simulation du comportement), qui a organisé le concours au nom de Loebner à partir de 2014. M. Wortham affirme que les LLM auraient désormais de bonnes chances de tromper les humains dans un tel concours ; c’est une coïncidence que les événements se soient terminés juste avant que les LLM ne prennent vraiment leur envol.

D’autres chercheurs s’accordent à dire que le GPT-4 et d’autres LLM passeraient probablement la conception populaire du test de Turing, puisqu’ils peuvent tromper de nombreuses personnes, au moins lors de courtes conversations. En mai, des chercheurs de la société AI21 Labs à Tel Aviv, en Israël, ont indiqué que plus de 1,5 million de personnes avaient joué à leur jeu en ligne basé sur le test de Turing. Les joueurs devaient discuter pendant deux minutes, soit avec un autre joueur, soit avec un robot alimenté par LLM que les chercheurs ont fait se comporter comme une personne. Les joueurs n’ont identifié correctement les robots que 60 fois, ce qui, selon les chercheurs, n’est pas beaucoup mieux que le hasard.

C’est le genre de jeu que les chercheurs familiarisés avec les LLM pourraient probablement encore gagner. Toutefois, M. Chollet estime qu’il serait facile de repérer un LLM en tirant parti des faiblesses connues de ces systèmes. « Si vous me mettez dans une situation où vous me demandez si je parle à un LLM en ce moment, je serai certainement capable de vous le dire », déclare M. Chollet.

La clé, selon lui, est de sortir le LLM de sa zone de confort. Il suggère de lui présenter des scénarios qui sont des variantes de ceux que le MLD a vus à maintes reprises dans ses données de formation. Dans de nombreux cas, le LLM réagit en produisant des mots qui sont davantage associés à la question originale dans ses données d’apprentissage, plutôt que de donner la bonne réponse pour le nouveau scénario.

Cependant, M. Chollet et d’autres sont sceptiques quant à l’utilisation d’un test centré sur la tromperie comme objectif de l’informatique. « Il s’agit avant tout d’essayer de tromper le jury », explique M. Chollet. Le test incite les développeurs de chatbots à faire réaliser des tours à l’IA, plutôt qu’à développer des capacités utiles ou intéressantes.

Les dangers des critères de référence

Au lieu du test de Turing, les chercheurs évaluent souvent les systèmes d’IA à l’aide de critères destinés à évaluer les performances dans des domaines spécifiques, tels que les compétences linguistiques, le raisonnement fondé sur le bon sens et les capacités mathématiques. De plus en plus, les équipes se tournent également vers des examens académiques et professionnels conçus pour les personnes.

Lorsque le GPT-4 a été lancé en mars de cette année, l’entreprise qui en est à l’origine – OpenAI à San Francisco, en Californie – a testé ses performances sur une série de critères conçus pour les machines, notamment la compréhension de la lecture, les mathématiques et le codage. GPT-4 a obtenu d’excellents résultats dans la plupart de ces domaines, comme l’a indiqué OpenAI. L’entreprise a également soumis GPT-4 à une trentaine d’examens, notamment : plusieurs tests portant sur des matières spécifiques et destinés aux élèves du secondaire aux États-Unis (Advanced Placement) ; un examen visant à évaluer les connaissances cliniques actuelles des médecins aux États-Unis ; et un test standardisé utilisé dans le processus de sélection pour les études supérieures aux États-Unis (GRE). Au Uniform Bar Admission Examination, qui fait partie du processus de qualification des avocats dans de nombreux États américains, GPT-4 a obtenu un score qui le placerait dans les 10 % les plus élevés par rapport aux humains, selon OpenAI (voir « Performances du système d’IA – résultats sélectionnés »).

Performances du système d’IA – résultats sélectionnés

TestGPT-4GPT3.5IA spécifiquement entraînée
Examen uniforme d’admission au barreau298/400 (~90ème percentile*)213/400 (~10ème percentile)N/A
Programme d’auto-évaluation des connaissances médicales75%53%N/A
Examen d’admission aux études supérieures : Quantitatif163/170 (~80e percentile)147/170 (~25ème percentile)N/A
HellaSwag : raisonnement de bon sens (test conçu pour les machines)95.3%85.5%85.6%
DROP : lecture et compréhension (test conçu pour les machines)80.9%64.1%88.4%
GSM-8K : ensemble de données de 8 000 problèmes de mathématiques au niveau de l’école primaire (pour les machines)92%57.1%87.3%
Source : OpenAI/Ref. 4.
*Les valeurs du percentile correspondent aux tests effectués par des humains qui ont obtenu ce score.

« Un grand nombre de ces modèles de langage peuvent obtenir de très bons résultats dans ces tests de référence », explique M. Mitchell. « Mais souvent, la conclusion n’est pas qu’ils ont surpassé les humains dans ces capacités générales, mais plutôt que les points de référence sont limités L’un des problèmes mentionnés par les chercheurs est que les modèles sont formés sur une telle quantité de texte qu’ils peuvent avoir vu des questions similaires dans leurs données de formation et donc, en pratique, ne faire que chercher la réponse. Ce problème est connu sous le nom de contamination.

L’OpenAI explique qu’elle a vérifié ce problème en recherchant des séquences de mots similaires dans les questions et les données d’entraînement. Lorsqu’elle a testé les LLM avant et après avoir supprimé les séquences similaires, la différence de performance était minime, ce qui suggère que les succès ne peuvent pas être attribués principalement à la contamination. Toutefois, certains chercheurs se demandent si ce test est suffisamment rigoureux.

Sam Bowman, chercheur en technologies du langage à l’université de New York, qui travaille également pour la société d’IA Anthropic à San Francisco, met en garde contre la tentation d’ignorer les compétences du GPT-4 en considérant simplement les résultats obtenus à l’examen comme le fruit d’une mémorisation. La contamination « complique un peu les affirmations, mais je ne pense pas qu’elle change beaucoup le tableau d’ensemble », dit-il.

Les chercheurs notent également que la réussite des LLM aux questions d’examen peut être fragile et ne pas se traduire par la capacité robuste nécessaire pour obtenir de bons exemples dans le monde réel. Il est possible de modifier légèrement les questions d’examen et de les faire échouer, explique Mme Mitchell. Par exemple, elle a pris une question d’un examen donné à des étudiants en maîtrise de gestion d’entreprise que ChatGPT avait passé et l’a légèrement reformulée. Une personne capable de répondre à cette question devrait pouvoir répondre à la version reformulée. Mais ChatGPT a échoué.

L’interprétation de la signification des critères de référence pose un problème plus profond. Pour une personne, des résultats élevés à tous ces examens indiqueraient de manière fiable une intelligence générale – un concept flou, mais qui, selon une définition, renvoie à la capacité de réussir une variété de tâches et de s’adapter à différents contextes. En d’autres termes, une personne qui a obtenu de bons résultats aux examens peut généralement être considérée comme capable de réussir d’autres tests cognitifs et de comprendre certains concepts abstraits. Mais ce n’est pas du tout le cas des LLM, affirme M. Mitchell, qui fonctionnent très différemment des autres. « Extrapoler comme nous le faisons pour les humains ne fonctionnera pas toujours pour les systèmes d’IA », dit-elle.

Cela peut s’expliquer par le fait que les LLM n’apprennent qu’à partir du langage ; sans être intégrés dans le monde physique, ils ne font pas l’expérience du lien entre le langage et les objets, les propriétés et les sentiments, comme le fait une personne. « Il est clair qu’ils ne comprennent pas les mots de la même manière que les gens », déclare M. Lake. Selon lui, les LLM démontrent actuellement « qu’il est possible d’avoir un langage très fluide sans véritable compréhension ».

D’un autre côté, les LLM ont aussi des capacités que les humains n’ont pas, comme celle de connaître les liens entre presque tous les mots que les humains ont jamais écrits. Cela pourrait permettre aux modèles de résoudre des problèmes en s’appuyant sur des particularités linguistiques ou d’autres indicateurs, sans nécessairement généraliser les performances, explique M. Mitchell.

Nick Ryder, chercheur à l’OpenAI, reconnaît que les résultats d’un test ne peuvent pas être généralisés de la même manière que ceux d’une personne ayant obtenu le même score. « Je ne pense pas qu’il faille considérer l’évaluation d’un être humain et d’un grand modèle de langage et en déduire une quelconque équivalence », déclare-t-il. Les scores de l’OpenAI « ne sont pas censés être une déclaration de capacité ou de raisonnement de type humain. Il s’agit d’une déclaration sur la manière dont le modèle se comporte dans cette tâche »

Les chercheurs ont également étudié les LLM de manière plus approfondie que par le biais de tests de référence machine conventionnels et d’examens humains. En mars, Sébastien Bubeck, de Microsoft Research à Redmond, Washington, et ses collègues ont fait sensation avec un article préliminaire intitulé « Sparks of Artificial General Intelligence : Early experiments with GPT-4 » (Étincelles d’intelligence générale artificielle : premières expériences avec GPT-4). En utilisant une première version de GPT-4, ils ont mis en évidence une série de capacités surprenantes, dont beaucoup n’étaient pas directement ou manifestement liées au langage. L’une des réussites les plus remarquables est d’avoir réussi les tests utilisés par les psychologues pour évaluer la théorie de l’esprit, une capacité humaine fondamentale qui permet de prédire et de raisonner sur les états mentaux d’autrui. « Étant donné l’étendue et la profondeur des capacités de GPT-4, nous pensons qu’il peut raisonnablement être considéré comme une première version (bien qu’encore incomplète) d’un système d’intelligence générale artificielle (AGI) », écrivent-ils.

Toutefois, comme l’explique Bubeck à Nature, « GPT-4 ne pense certainement pas comme une personne, et pour toutes les capacités qu’il démontre, il y parvient à sa manière ».

Bien que provocateur, le rapport n’étudie pas les capacités du LLM de manière systématique, affirme M. Mitchell. « C’est plutôt de l’anthropologie », dit-elle. Selon M. Ullman, pour être convaincu qu’une machine possède une théorie de l’esprit, il faudrait qu’il y ait des preuves d’un processus cognitif sous-jacent correspondant à la théorie de l’esprit humaine, et pas seulement que la machine puisse produire les mêmes réponses qu’une personne.

Pour découvrir les forces et les faiblesses des LLM, des audits plus étendus et plus rigoureux sont nécessaires, affirment les chercheurs en IA. Les puzzles logiques colorés pourraient être un candidat.

Nouveaux puzzles

En 2019, avant que les LLM n’explosent sur la scène, M. Chollet a publié en ligne un nouveau type de test de logique pour les systèmes d’IA qu’il a créé, appelé Abstraction and Reasoning Corpus (ARC). Les candidats examinent diverses démonstrations visuelles d’une grille de carrés se transformant en un autre motif et montrent qu’ils ont compris la règle sous-jacente du changement, en indiquant comment la prochaine grille se transformerait. « Il s’agit de tester la capacité d’adaptation à des choses que l’on n’a jamais vues auparavant », explique M. Chollet, qui estime que c’est là l’essence même de l’intelligence.

L’ARC capture une « caractéristique de l’intelligence humaine », selon M. Lake : la capacité de faire des abstractions à partir des connaissances quotidiennes et de les appliquer à des problèmes jamais vus auparavant.

M. Chollet a organisé un concours ARC pour les robots en 2020, avant que les LLM n’aient gagné en popularité. Le robot gagnant était un système d’IA spécialement formé pour résoudre des tâches de type ARC, mais contrairement aux LLM, il n’avait pas de capacités générales ; il n’a réussi à résoudre que 21 des problèmes. En revanche, les gens résolvent les problèmes ARC correctement dans 80 % des cas. Plusieurs équipes de chercheurs ont maintenant utilisé l’ARC pour tester les capacités des LLM ; aucune ne s’est approchée des performances humaines.

Mitchell et ses collègues ont créé une série de nouveaux puzzles – connus sous le nom de ConceptARC – inspirés de l’ARC, mais avec deux différences essentielles. Les tests de ConceptARC sont plus faciles : l’équipe de Mitchell voulait s’assurer que le test de référence ne manquait pas de saisir les progrès réalisés dans les capacités des machines, même s’ils étaient minimes. L’autre différence réside dans le fait que l’équipe a choisi des concepts spécifiques à tester et a ensuite créé une série de puzzles pour chaque concept qui sont des variations sur un thème.

Par exemple, pour tester le concept d’égalité, une énigme demande au solveur de tenir des objets dans le modèle qui ont les mêmes formes ; une autre demande de tenir des objets qui sont alignés le long du même axe. L’objectif était de réduire les chances qu’un système d’intelligence artificielle réussisse le test sans comprendre les concepts (voir « Un test de pensée abstraite qui met les machines en échec »).

Ce que signifie une performance médiocre

Les chercheurs ont introduit des tâches ConceptARC dans le GPT-4 et 400 personnes se sont inscrites en ligne. Les humains ont obtenu une moyenne de 91 m pour tous les groupes de concepts (et 97 m pour l’un d’entre eux) ; le GPT-4 a obtenu 33 m pour un groupe et moins de 30 m pour tous les autres.

« Nous avons montré que les machines sont encore loin d’atteindre le niveau des humains », explique M. Mitchell. « Il est surprenant qu’il ait pu résoudre certains problèmes, car il n’avait jamais été entraîné à le faire », ajoute-t-il.

L’équipe a également testé les principaux robots du concours de Chollet, qui n’étaient pas des systèmes de compétences générales comme les LLM, mais étaient conçus pour résoudre des puzzles visuels, comme l’ARC. Dans l’ensemble, ils ont fait mieux que le GPT-4, mais moins bien que les humains, le plus performant obtenant 77 m dans une catégorie, mais moins de 60 % dans la plupart des autres1.

Toutefois, Bowman affirme que les difficultés du GPT-4 avec ConceptARC ne prouvent pas qu’ils manquent de compétences sous-jacentes en matière de raisonnement abstrait. Selon lui, ConceptARC est défavorable au GPT-4, notamment parce qu’il s’agit d’un test visuel. « Même si l’on suppose que ces modèles sont très doués pour ce type de raisonnement, je ne pense pas que l’on puisse s’attendre à ce que cette expérience fonctionne », explique-t-il.

Les limites de la méthode d’exécution du test ont probablement compliqué la tâche du GPT-4. La version publique du LLM n’acceptant que du texte en entrée, les chercheurs ont fourni à GPT-4 des tableaux de nombres représentant les images (un pixel vide peut correspondre à 0, et un carré coloré à un nombre, par exemple) En revanche, les participants humains ont simplement vu les images. « Nous comparons un système uniquement linguistique avec des humains, qui ont un système visuel très développé », explique M. Mitchell. « Il se peut donc que la comparaison ne soit pas tout à fait juste

OpenAI a créé une version « multimodale » de GPT-4 qui peut accepter des images en entrée. Mme Mitchell et son équipe espèrent que cette version sera mise à la disposition du public afin de pouvoir tester ConceptARC sur celle-ci, bien qu’elle ne pense pas que la version multimodale de GPT-4 fasse beaucoup mieux. « Je ne pense pas que ces systèmes possèdent le même type de concepts abstraits et de capacités de raisonnement que les êtres humains », explique-t-elle.

Sam Acquaviva, chercheur en cognition informatique au Massachusetts Institute of Technology de Cambridge, partage cet avis. « Je serais choqué », déclare-t-il. Il note qu’une autre équipe de chercheurs a testé le GPT-4 sur un benchmark appelé 1D-ARC, dans lequel les motifs sont limités à une seule ligne plutôt qu’à une grille8. Cela devrait permettre d’éliminer une partie de l’injustice. Bien que les performances de GPT-4 se soient améliorées, elles n’étaient pas suffisantes pour suggérer que LLM comprenait de manière fiable la règle sous-jacente et raisonnait à son sujet, explique Acquaviva.

Argument en faveur du raisonnement

Bowman cite d’autres expériences qui, prises dans leur ensemble, lui semblent indiquer que les LLM ont acquis au moins une capacité rudimentaire de raisonnement sur des concepts abstraits. Par exemple, Kenneth Li, informaticien à l’université de Harvard, et ses collègues ont utilisé une version numérique du jeu de société Othello, dans lequel deux joueurs s’affrontent en plaçant des disques noirs et blancs sur une grille de 8×8. Leur objectif était de déterminer si les LLM s’appuient sur les statistiques de surface du langage mémorisé pour générer du texte, ou s’ils construisent des représentations internes du monde, comme le font les êtres humains.

Lorsqu’ils ont entraîné un LLM en lui fournissant des listes de mouvements effectués par des joueurs, il est devenu très performant pour fournir des suggestions précises sur les prochains mouvements légaux. Les chercheurs ont soutenu qu’ils avaient la preuve que le LLM suivait l’état du plateau et utilisait cette représentation pour suggérer des coups, plutôt que de créer simplement des suggestions textuelles9.

Bowman reconnaît que les capacités de raisonnement des LLM en général sont « inégales » et plus limitées que celles des humains, mais il affirme qu’elles existent et qu’elles semblent s’améliorer avec la taille du modèle, ce qui lui laisse penser que les LLM futurs seront encore meilleurs. « Ces systèmes sont loin d’être aussi fiables ou généraux que nous le souhaiterions, et il est probable qu’ils échouent encore complètement dans certaines capacités spécifiques de raisonnement abstrait », déclare-t-il. « Mais je pense que les capacités de base sont là

Bowman, Mitchell et d’autres s’accordent à dire que la meilleure façon de tester les capacités de raisonnement abstrait et d’autres signes d’intelligence des LLM reste un problème ouvert et non résolu. Michael Frank, chercheur en sciences cognitives à l’université de Stanford en Californie, ne s’attend pas à ce qu’un seul test complet succède au test de Turing : « Il n’y a pas de Rubicon, pas de ligne unique », dit-il. Il pense plutôt que les chercheurs ont besoin de nombreux tests pour quantifier les forces et les faiblesses des différents systèmes. « Ces agents sont formidables, mais ils échouent à bien des égards et il est absolument essentiel de les sonder systématiquement », ajoute-t-il.

M. Wortham donne un conseil à tous ceux qui essaient de comprendre les systèmes d’IA : évitez ce qu’il appelle la malédiction de l’anthropomorphisation. « Nous anthropomorphisons tout ce qui semble faire preuve d’intelligence », explique-t-il.

« C’est une malédiction, car nous ne pouvons pas penser à des choses qui présentent un comportement orienté vers un but autrement qu’en utilisant des modèles humains », ajoute-t-il. « Et nous imaginons que la raison pour laquelle il fait cela est qu’il pense comme nous, sous le capot

Avec le contenu de Nature.