OpenAI tests if GPT-4 can explain how AI works

Em um artigo recente, a OpenAI mostra como a inteligência artificial pode ajudar a interpretar o funcionamento interno de grandes modelos de linguagem. A equipe usou o GPT-4 para gerar e avaliar explicações para os neurônios de seu antecessor mais velho, o GPT-2. O trabalho faz parte da pesquisa de alinhamento da OpenAI, que tem como objetivo ajudar a entender e guiar melhor o comportamento dos sistemas de IA.

A metodologia da OpenAI envolve três etapas:

  • Gerando uma explicação com o GPT-4: Começando com um neurônio do GPT-2, o GPT-4 gera uma explicação para seu comportamento exibindo sequências de texto e ativações relevantes.
  • Simular com o GPT-4: O GPT-4 simula o que um neurônio disparando para a explicação gerada faria.
  • Comparar: A explicação gerada é avaliada com base em como as ativações simuladas correspondem às ativações reais do neurônio do GPT-2.

Ao final do processo, há uma explicação da função de um neurônio GPT-2 em linguagem natural, como “Dispara ao se referir a filmes, personagens e entretenimento”.

OpenAI's GPT-4 tem um desempenho pior que humanos em explicar GPT-2

A equipe descobriu que quanto maior o modelo de linguagem a ser explicado, pior funciona esse método. Uma razão pode ser que os neurônios em camadas posteriores sejam mais difíceis de explicar. No entanto, a equipe conseguiu melhorar as explicações geradas em certa medida usando abordagens como explicações iterativas. Além disso, o GPT-4 fornece explicações melhores do que modelos menores – mas ainda piores do que os humanos.

A equipe gerou explicações para todos os 307.200 neurônios do GPT-2 usando o GPT-4. Entre eles, encontraram 1.000 explicações de neurônios com uma taxa de explicação de pelo menos 0,8, o que significa que explicaram a maioria do comportamento de ativação do neurônio após o uso do GPT-4, segundo a OpenAI.

De acordo com a OpenAI, a metodologia tem muitos problemas, como sua incapacidade de explicar o comportamento neuronal complexo ou os efeitos downstream das ativações. Além disso, é questionável se uma explicação em linguagem natural é possível para todos os neurônios, e a abordagem não fornece uma explicação mecanicista para o comportamento dos neurônios GPT-2, “o que poderia fazer com que nossa compreensão generalizasse incorretamente”.

A pesquisa de alinhamento da OpenAI depende de assistentes de IA

O objetivo da pesquisa é criar métodos de interpretabilidade automáticos que a empresa planeja usar para verificar se os modelos de linguagem estão alinhados. De particular importância é a detecção de exemplos de má generalização de objetivos ou alinhamento enganoso, “quando o modelo age alinhado durante a avaliação, mas buscaria objetivos diferentes durante a implementação”. Detectar isso requer uma compreensão profunda do comportamento interno.

Em seu trabalho, a OpenAI usou um modelo mais poderoso para explicar um mais fraco – o que poderia causar problemas se não estivesse claro se o assistente em si é confiável. “Esperamos que o uso de modelos menores e confiáveis para assistência escalone para uma auditoria completa de interpretabilidade, ou aplicando-os à interpretabilidade nos ensinará o suficiente sobre como os modelos funcionam para nos ajudar a desenvolver métodos de auditoria mais robustos”.

A OpenAI liberou o conjunto de dados e código, bem como uma ferramenta de visualização para todos os neurônios do GPT-2. A empresa espera incentivar o desenvolvimento de metodologias melhores na pesquisa de alinhamento.