Lors d’une expérience récente, des chercheurs ont utilisé de grands modèles de langage pour traduire l’activité cérébrale en mots.

Pensez aux mots qui tourbillonnent dans votre tête : cette mauvaise blague que vous avez sagement gardée pour vous pendant le dîner ; votre impression muette sur le nouveau partenaire de votre meilleur ami. Imaginez maintenant que quelqu’un puisse les entendre.

Lundi, des scientifiques de l’université du Texas à Austin ont fait un pas de plus dans cette direction. Dans une étude publiée dans la revue Nature Neuroscience, les chercheurs décrivent une IA capable de traduire les pensées intimes des êtres humains en analysant les IRM, qui mesurent le flux sanguin vers différentes régions du cerveau.

Les chercheurs ont déjà mis au point des méthodes de décodage du langage pour saisir les tentatives de discours des personnes ayant perdu la capacité de parler et permettre aux personnes paralysées d’écrire en pensant seulement à l’écriture. Mais le nouveau décodeur de langage est l’un des premiers à ne pas reposer sur des implants. Dans le cadre de l’étude, il a été capable de transformer le discours imaginé d’une personne en discours réel et, lorsque les sujets ont visionné des films muets, il a pu générer des descriptions relativement précises de ce qui se passait à l’écran.

« Il ne s’agit pas seulement d’un stimulus linguistique », a déclaré Alexander Huth, neuroscientifique à l’université qui a participé à la recherche. « Il s’agit d’une signification, d’une idée de ce qui se passe. Le fait que cela soit possible est très excitant »

L’étude a porté sur trois participants qui se sont rendus dans le laboratoire du Dr Huth pendant 16 heures sur plusieurs jours pour écouter « The Moth » et d’autres podcasts narratifs. Pendant qu’ils écoutaient, un scanner IRMf enregistrait les niveaux d’oxygénation du sang dans certaines parties de leur cerveau. Les chercheurs ont ensuite utilisé un grand modèle linguistique pour faire correspondre les schémas d’activité cérébrale avec les mots et les phrases que les participants avaient entendus.

Les grands modèles de langage tels que GPT-4 d’OpenAI et Bard de Google sont entraînés sur de grandes quantités d’écrits afin de prédire le mot suivant dans une phrase. Au cours de ce processus, les modèles créent des cartes indiquant comment les mots sont liés les uns aux autres. Il y a quelques années, M. Huth a remarqué que des parties spécifiques de ces cartes – appelées context embeddings, qui capturent les caractéristiques sémantiques, ou significations, des phrases – pouvaient être utilisées pour prédire la façon dont le cerveau s’allume en réponse au langage.

Selon Shinji Nishimoto, neuroscientifique à l’université d’Osaka qui n’a pas participé à la recherche, « l’activité cérébrale est une sorte de signal crypté, et les modèles de langage permettent de le déchiffrer ».

Dans leur étude, le Dr Huth et ses collègues ont effectivement inversé le processus, en utilisant une autre IA pour traduire les images IRM des participants en mots et en phrases. Les chercheurs ont testé le décodeur en faisant écouter aux participants de nouveaux enregistrements et en vérifiant si la traduction correspondait à la transcription réelle.

Presque tous les mots n’étaient pas à leur place dans l’écriture décodée, mais le sens du passage était régulièrement préservé. En fait, les décodeurs faisaient de la paraphrase.

Original: « Je me suis levé du matelas pneumatique et j’ai pressé mon visage contre la vitre de la fenêtre de la chambre, m’attendant à voir des yeux me regarder, mais à la place, je n’ai trouvé que l’obscurité. »

Activité cérébrale décodée: « J’ai continué à marcher jusqu’à la fenêtre et j’ai ouvert la vitre, je me suis mis sur la pointe des pieds et j’ai regardé dehors, je n’ai rien vu et j’ai regardé à nouveau en l’air, je n’ai rien vu ».

Au cours de l’imagerie par résonance magnétique fonctionnelle, les participants ont également été invités à imaginer silencieusement qu’ils racontaient une histoire ; ils ont ensuite répété l’histoire à haute voix pour s’y référer. Ici aussi, le modèle de décodage a saisi l’essence de la version non exprimée.

Version duparticipant: « Chercher un message de ma femme disant qu’elle a changé d’avis et qu’elle revient ».

Version décodée: « La voir pour une raison quelconque, je pensais qu’elle viendrait me voir pour me dire que je lui manque »

Enfin, les sujets ont regardé un court film d’animation muet, toujours en subissant un IRMf. En analysant leur activité cérébrale, le modèle de langage a pu décoder un résumé approximatif de ce qu’ils voyaient – peut-être leur description interne de ce qu’ils voyaient.

Vidéo : New York Times

Le résultat suggère que le décodeur d’IA ne capturait pas seulement des mots, mais aussi du sens. « La perception du langage est un processus externe, alors que l’imagination est un processus interne actif », explique M. Nishimoto. « Les auteurs ont montré que le cerveau utilise des représentations communes dans ces deux processus

Greta Tuckute, neuroscientifique au Massachusetts Institute of Technology qui n’a pas participé à la recherche, a déclaré qu’il s’agissait d’une « question de haut niveau ».

« Pouvons-nous décoder le sens du cerveau ? », a-t-elle poursuivi. « D’une certaine manière, ils montrent que oui, nous le pouvons

Cette méthode de décodage du langage a ses limites, notent Huth et ses collègues. D’une part, les scanners IRMf sont encombrants et coûteux. D’autre part, l’entraînement du modèle est un processus long et fastidieux qui, pour être efficace, doit être réalisé sur des individus. Lorsque les chercheurs ont essayé d’utiliser un décodeur formé sur une personne pour lire l’activité cérébrale d’une autre, ils ont échoué, ce qui suggère que chaque cerveau a des façons uniques de représenter le sens.

Les participants ont également été en mesure de protéger leurs monologues internes en abandonnant le décodeur alors qu’ils pensaient à autre chose. L’IA sera peut-être capable de lire dans nos pensées, mais pour l’instant, elle devra le faire une par une, et avec notre permission. Actualités avec le contenu du New York Times.