Une nouvelle méthode augmente considérablement la véracité des grands modèles de langage et montre que ces modèles en savent plus qu’ils n’en révèlent.

Des chercheurs de l’université de Harvard ont mis au point une technique appelée « intervention pendant l’inférence » (ITI) pour améliorer la véracité ou la factualité des grands modèles de langage et créer un « LLaMA honnête », comme il est appelé sur GitHub. Ce travail est motivé par le fait que ChatGPT et d’autres chatbots fournissent des informations correctes dans certains contextes, mais présentent des lacunes dans d’autres – c’est-à-dire que les faits sont là, mais se perdent parfois dans l’inférence du modèle.

L’équipe utilise des sondes linéaires pour identifier les sections du réseau neuronal qui ont une grande précision dans les tests de factualité en utilisant des parties du référentiel TruthfulQA. Une fois que l’équipe a identifié ces sections dans certaines des têtes d’attention du transformateur, l’ITI déplace les activations du modèle le long de ces têtes d’attention pendant la génération du texte.

L’ITI augmente considérablement la véracité d’Alpaca

Les chercheurs démontrent qu’avec l’ITI, la précision du modèle open-source Alpaca sur le benchmark TruthfulQA passe de 32,5 % à 65,1 %, avec des sauts similaires pour Vicuna et LLaMA. Cependant, un changement trop important dans les activations du modèle peut également avoir des conséquences négatives : le modèle refuse des réponses et devient donc moins utile. Cet équilibre entre factualité et utilité peut être ajusté en variant l’intensité de l’intervention de l’ITI.

A equipe utiliza o ITI para o Honest-LLaMA (azul), que fornece respostas mais corretas do que o LLaMA (vermelho).
L’équipe utilise l’ITI pour Honest-LLaMA (bleu), qui fournit plus de réponses correctes que LLaMA (rouge). | Image : Li, Patel et al.

L’ITI présente certaines similitudes avec l’apprentissage par renforcement, dans la mesure où le retour d’information humain peut également accroître le caractère factuel des réponses. Toutefois, le RLHF peut également encourager les comportements trompeurs, car le modèle tente de se conformer aux attentes de l’homme. Les chercheurs affirment que l’ITI ne présente pas ce problème et qu’il est également peu invasif, car il nécessite peu de données d’apprentissage et de puissance de calcul.

L’étude de grands modèles linguistiques pourrait permettre de mieux comprendre la « vérité »

L’équipe souhaite maintenant comprendre comment la méthode peut être généralisée à d’autres ensembles de données dans un environnement de discussion réel, et développer une compréhension plus approfondie de l’équilibre entre la factualité et l’utilité. En outre, à l’avenir, il pourrait être possible d’apprendre les segments de réseau identifiés manuellement de manière autosupervisée afin de rendre la méthode plus évolutive.

Enfin, les chercheurs soulignent que le sujet peut également apporter une contribution plus large : « D’un point de vue scientifique, il serait intéressant de mieux comprendre la géométrie multidimensionnelle des représentations d’attributs complexes, telles que la « vérité » »

Le code et d’autres informations sont disponibles sur GitHub.