OpenAI prueba si GPT-4 puede explicar cómo funciona la IA

En un artículo reciente, OpenAI muestra cómo la inteligencia artificial puede ayudar a interpretar el funcionamiento interno de grandes modelos lingüísticos. El equipo utilizó GPT-4 para generar y evaluar explicaciones de las neuronas de su predecesor más antiguo, GPT-2. El trabajo forma parte de la investigación sobre alineación de OpenAI, cuyo objetivo es ayudar a comprender y guiar mejor el comportamiento de los sistemas de IA.

La metodología de OpenAI consta de tres fases:

  • Generar una explicación con GPT-4: partiendo de una neurona de GPT-2, GPT-4 genera una explicación de su comportamiento mostrando secuencias de texto y activaciones relevantes.
  • Simular con GPT-4: GPT-4 simula lo que haría una neurona que disparara ante la explicación generada.
  • Comparar: La explicación generada se evalúa en función de lo bien que coinciden las activaciones simuladas con las activaciones reales de la neurona GPT-2.

Al final del proceso, se obtiene una explicación de la función de una neurona GPT-2 en lenguaje natural, como «Se dispara al referirse a películas, personajes y entretenimiento».

La GPT-4 de OpenAI funciona peor que los humanos a la hora de explicar la GPT-2

El equipo descubrió que cuanto mayor es el modelo lingüístico que hay que explicar, peor funciona este método. Una de las razones puede ser que las neuronas de las capas posteriores son más difíciles de explicar. Sin embargo, el equipo consiguió mejorar en cierta medida las explicaciones generadas utilizando enfoques como las explicaciones iterativas. Además, el GPT-4 proporciona mejores explicaciones que los modelos más pequeños, pero sigue siendo peor que los humanos.

El equipo generó explicaciones para las 307.200 neuronas de GPT-2 utilizando GPT-4. Entre ellas, encontraron 1.000 explicaciones de neuronas con una tasa de explicación de al menos 0,8, lo que significa que explicaban la mayor parte del comportamiento de activación de la neurona tras utilizar GPT-4, según OpenAI.

Según OpenAI, la metodología tiene muchos problemas, como su incapacidad para explicar comportamientos neuronales complejos o los efectos descendentes de las activaciones. Además, es cuestionable que una explicación en lenguaje natural sea posible para todas las neuronas, y el enfoque no proporciona una explicación mecanicista del comportamiento de las neuronas GPT-2, «lo que podría hacer que nuestra comprensión se generalizara incorrectamente».

La investigación sobre alineación de OpenAI se basa en asistentes de IA

El objetivo de la investigación es crear métodos automáticos de interpretabilidad que la empresa planea utilizar para comprobar si los modelos lingüísticos están alineados. Es especialmente importante detectar ejemplos de mala generalización de objetivos o alineación engañosa, «cuando el modelo actúa alineado durante la evaluación, pero persigue objetivos diferentes durante la implementación». Detectar esto requiere un profundo conocimiento del comportamiento interno.

En su trabajo, OpenAI utilizó un modelo más potente para explicar otro más débil, lo que podría causar problemas si no está claro si el propio asistente es fiable. «Esperamos que el uso de modelos más pequeños y fiables para la asistencia se amplíe a una auditoría de interpretabilidad completa, o que su aplicación a la interpretabilidad nos enseñe lo suficiente sobre cómo funcionan los modelos para ayudarnos a desarrollar métodos de auditoría más robustos».

OpenAI ha publicado el conjunto de datos y el código, así como una herramienta de visualización de todas las neuronas GPT-2. La empresa espera fomentar el desarrollo de mejores metodologías en la investigación de la alineación.