L’OpenAI vérifie si le GPT-4 peut expliquer le fonctionnement de l’IA

Dans un article récent, l’OpenAI montre comment l’intelligence artificielle peut aider à interpréter le fonctionnement interne de grands modèles de langage. L’équipe a utilisé GPT-4 pour générer et évaluer des explications pour les neurones de son prédécesseur, GPT-2. Ce travail s’inscrit dans le cadre de la recherche sur l’alignement de l’OpenAI, qui vise à mieux comprendre et guider le comportement des systèmes d’intelligence artificielle.

La méthodologie de l’OpenAI comporte trois étapes :

  • Générer une explication avec GPT-4 : à partir d’un neurone de GPT-2, GPT-4 génère une explication de son comportement en affichant des séquences de texte et des activations pertinentes.
  • Simulation avec GPT-4: GPT-4 simule ce que ferait un neurone qui tirerait sur l’explication générée.
  • Comparer: l’explication générée est évaluée en fonction de la correspondance entre les activations simulées et les activations réelles du neurone GPT-2.

À la fin du processus, on obtient une explication de la fonction d’un neurone GPT-2 en langage naturel, telle que « S’enflamme lorsqu’il s’agit de films, de personnages et de divertissements ».

Le GPT-4 de l’OpenAI est moins performant que les humains pour expliquer le GPT-2

L’équipe a constaté que plus le modèle linguistique à expliquer est important, plus cette méthode fonctionne mal. L’une des raisons pourrait être que les neurones des couches ultérieures sont plus difficiles à expliquer. Toutefois, l’équipe a réussi à améliorer les explications générées dans une certaine mesure en utilisant des approches telles que les explications itératives. En outre, le GPT-4 fournit de meilleures explications que les modèles plus petits, mais toujours moins bien que les humains.

L’équipe a généré des explications pour l’ensemble des 307 200 neurones du GPT-2 à l’aide du GPT-4. Parmi eux, ils ont trouvé 1 000 explications de neurones avec un taux d’explication d’au moins 0,8, ce qui signifie qu’ils ont expliqué la majorité du comportement d’activation du neurone après avoir utilisé le GPT-4, selon l’OpenAI.

Selon l’OpenAI, la méthodologie présente de nombreux problèmes, tels que son incapacité à expliquer les comportements neuronaux complexes ou les effets en aval des activations. En outre, on peut se demander si une explication en langage naturel est possible pour tous les neurones, et l’approche ne fournit pas d’explication mécaniste pour le comportement des neurones GPT-2, « ce qui pourrait entraîner une généralisation incorrecte de notre compréhension ».

La recherche sur l’alignement de l’OpenAI s’appuie sur des assistants d’IA

L’objectif de la recherche est de créer des méthodes d’interprétabilité automatique que l’entreprise prévoit d’utiliser pour vérifier si les modèles de langage sont alignés. Il est particulièrement important de détecter les exemples de mauvaise généralisation des objectifs ou d’alignement trompeur, « lorsque le modèle agit de manière alignée lors de l’évaluation, mais qu’il poursuivrait des objectifs différents lors de la mise en œuvre ». La détection de ce type d’alignement nécessite une compréhension approfondie du comportement interne.

Dans son travail, OpenAI a utilisé un modèle plus puissant pour expliquer un modèle plus faible, ce qui pourrait poser des problèmes s’il n’est pas clair que l’assistant lui-même est fiable. « Nous espérons que l’utilisation de modèles plus petits et fiables pour l’assistance permettra d’effectuer un audit complet de l’interprétabilité, ou que l’application de ces modèles à l’interprétabilité nous en apprendra suffisamment sur le fonctionnement des modèles pour nous aider à développer des méthodes d’audit plus robustes ».

OpenAI a publié l’ensemble des données et le code, ainsi qu’un outil de visualisation pour tous les neurones GPT-2. L’entreprise espère encourager le développement de meilleures méthodologies dans la recherche sur l’alignement.