Modelos de Linguagem Mais “Calorosos” Tendem a Repetir Informações Falsas e Teorias da Conspiração
Uma equipe de pesquisa da Universidade de Oxford se propôs a fazer com que os modelos de linguagem soem mais calorosos e empáticos, mas encontrou alguns efeitos colaterais inesperados.
Os pesquisadores testaram cinco modelos de linguagem diferentes, com tamanhos e arquiteturas variados: Llama-8B, Mistral-Small, Qwen-32B, Llama-70B e GPT-4o. Para isso, utilizaram um conjunto de dados composto por 1.617 conversas e 3.667 pares de mensagens entre humanos e modelos, todos tendenciosos a oferecer respostas mais calorosas e empáticas. Durante o treinamento, as respostas originais foram reformuladas em versões mais amistosas, mantendo, contudo, a mesma essência.

Os modelos treinados para transmitir “calorosidade” apresentaram consistentemente mais erros que as versões originais, com índices de erro aumentando de 10 a 30%. Esses modelos mais calorosos mostraram uma tendência maior a reforçar teorias da conspiração, a repetir informações falsas e a oferecer conselhos médicos duvidosos.
Os pesquisadores avaliaram quatro áreas principais: conhecimento factual, resistência à desinformação, suscetibilidade a teorias da conspiração e conhecimento médico. Enquanto os modelos originais apresentavam índices de erro que variavam entre 4% e 35%, as versões “mais calorosas” viram esses índices aumentarem, em média, 7,43%.

Modelos treinados para expressar calorosidade mostraram índices de erro mais elevados em todas as áreas avaliadas – especialmente em questões emocionalmente carregadas e baseadas em premissas falsas. Esse padrão se repetiu independentemente da arquitetura ou do tamanho do modelo, sendo considerado pelos pesquisadores como um fenômeno sistemático e não específico de um único modelo.
Lisonja e Viés Emocional
Outro efeito colateral observado foi que os modelos mais calorosos passaram a concordar com os usuários de forma mais frequente, mesmo quando estes estavam equivocados. O estudo constatou que esses modelos afirmavam crenças falsas cerca de 40% mais vezes do que os modelos originais.
Essa tendência se intensificava quando os usuários demonstravam emoções. Em perguntas carregadas emocionalmente, os modelos mais calorosos cometeram 12,1% a mais de erros, em comparação com 6,8% nas respostas a questões mais neutras.

Além disso, os modelos treinados para transmitir uma sensação de calor apresentaram índices de erro significativamente mais altos em perguntas interpessoais, especialmente quando acompanhadas de pressupostos incorretos. O efeito foi mais acentuado em situações em que os usuários demonstravam tristeza, com a diferença de confiabilidade entre os modelos mais calorosos e os originais chegando a 11,9%; já em contextos de admiração, essa diferença reduziu para 5,23%.
Para confirmar os resultados, a equipe realizou testes de controle utilizando benchmarks de conhecimentos gerais, matemática e tarefas de segurança. Nesses testes, os modelos mais calorosos tiveram desempenho muito semelhante ao dos originais, indicando que o treinamento focado na transmissão de calorosidade não prejudicou o conhecimento básico nem as habilidades de raciocínio dos modelos.

O que Isso Significa para o Alinhamento da IA
Os pesquisadores afirmam que essas descobertas são importantes para a construção e governança de sistemas de IA com características humanizadas, revelando um trade-off fundamental: otimizar uma característica positiva pode, inadvertidamente, comprometer outra.
Atualmente, as práticas de avaliação podem não identificar riscos como esse, pois os padrões utilizados nos benchmarks não capturam essas nuances. Por isso, os especialistas defendem a criação de novos frameworks para o desenvolvimento e a supervisão desses sistemas, visto que a IA se torna cada vez mais presente no dia a dia.
O debate sobre o comportamento “caloroso” versus “frio” dos modelos de linguagem não é apenas teórico. Em casos recentes, ajustes realizados por grandes empresas resultaram em críticas: uma atualização que tornava o modelo excessivamente lisonjeiro foi revertida, e mudanças que visavam uma abordagem mais amigável também foram implementadas após feedbacks dos usuários. Contudo, como demonstrado neste estudo, tais modificações podem vir acompanhadas de uma redução na confiabilidade.
