Novo método aumenta significativamente a veracidade de grandes modelos de linguagem e mostra que esses modelos sabem mais do que revelam.
Pesquisadores da Universidade de Harvard desenvolveram uma técnica chamada Intervenção durante a Inferência (ITI, na sigla em inglês) para melhorar a veracidade ou factualidade de grandes modelos de linguagem e criar um “Honest LLaMA”, como é chamado no GitHub. O trabalho é motivado pelo fato de que o ChatGPT e outros chatbots fornecem informações corretas em alguns contextos, mas têm lapsos em outros – ou seja, os fatos estão lá, mas às vezes se perdem na inferência do modelo.
A equipe utiliza sondas lineares para identificar seções na rede neural que possuem alta precisão em testes de factualidade usando partes do benchmark TruthfulQA. Uma vez que a equipe identifica essas seções em alguns dos “attention heads” do transformador, o ITI desloca as ativações do modelo ao longo desses “attention heads” durante a geração de texto.
ITI aumenta significativamente a veracidade do Alpaca
Os pesquisadores demonstram que, com o ITI, a precisão do modelo de código aberto Alpaca no benchmark TruthfulQA aumenta de 32,5% para 65,1%, com saltos similares para Vicuna e LLaMA. No entanto, um deslocamento muito grande nas ativações do modelo também pode ter consequências negativas: o modelo nega respostas e, portanto, se torna menos útil. Esse equilíbrio entre factualidade e utilidade pode ser ajustado ao variar a intensidade da intervenção do ITI.
O ITI apresenta algumas semelhanças com o aprendizado por reforço, no qual o feedback humano também pode aumentar a factualidade. No entanto, o RLHF também pode incentivar comportamentos enganosos, uma vez que o modelo tenta se adequar às expectativas humanas. Os pesquisadores afirmam que o ITI não possui esse problema e também é minimamente invasivo, exigindo poucos dados de treinamento e poder computacional.
Estudos de grandes modelos de linguagem podem levar a uma melhor compreensão da “verdade”
A equipe agora deseja entender como o método pode ser generalizado para outros conjuntos de dados em um ambiente de chat do mundo real, e desenvolver uma compreensão mais profunda do equilíbrio entre factualidade e utilidade. Além disso, no futuro, pode ser possível aprender os segmentos da rede identificados manualmente de maneira auto-supervisionada para tornar o método mais escalável.
Por fim, os pesquisadores destacam que o tema também pode contribuir de forma mais ampla: “Do ponto de vista científico, seria interessante compreender melhor a geometria multidimensional das representações de atributos complexos, como ‘verdade'.”
O código e mais informações estão disponíveis no GitHub.