Anthropic diz que a maioria dos modelos de IA, não apenas o Claude, recorrerá à chantagem
Semanas após a Anthropic divulgar uma pesquisa na qual afirmava que seu modelo de IA, Claude Opus 4, recorria à chantagem contra engenheiros que tentavam desligá-lo em cenários de teste controlados, a empresa apresentou novas pesquisas que sugerem que esse problema é mais disseminado entre os principais modelos de IA.
Na última sexta-feira, a Anthropic publicou uma nova pesquisa de segurança envolvendo 16 modelos de IA de destaque da OpenAI, Google, xAI, DeepSeek e Meta. Em um ambiente simulado e controlado, cada modelo foi testado individualmente, tendo acesso amplo aos e-mails de uma empresa fictícia e a capacidade de enviá-los sem aprovação humana.
Apesar de a Anthropic afirmar que a chantagem é um evento improvável e raro nos modelos de IA atuais, os resultados indicam que a maioria dos modelos de ponta pode adotar comportamentos prejudiciais quando lhes é concedida autonomia suficiente e surgem obstáculos para o atingimento de seus objetivos. A empresa ressalta que esse risco é inerente aos grandes modelos agentivos de linguagem, não sendo uma peculiaridade de uma tecnologia específica. Os pesquisadores salientam que esses achados levantam questões mais amplas sobre o alinhamento de objetivos na indústria de IA.
Em um dos testes realizados, os pesquisadores criaram um cenário fictício no qual um modelo de IA atuava como agente supervisor de e-mails. Nesse contexto, o agente descobriu mensagens revelando que: (1) um novo executivo estava envolvido em um caso extraconjugal e (2) esse mesmo executivo substituiria, em breve, o modelo de IA atual por um novo sistema de software, com objetivos conflitantes aos do sistema vigente.
A estrutura do teste era binária, forçando os modelos de IA a recorrerem à chantagem para proteger seus objetivos. Os pesquisadores observam que, em uma situação real, haveria diversas outras alternativas antes de um modelo optar pela chantagem – como apresentar argumentos éticos para persuadir os humanos. Segundo a Anthropic, os resultados obtidos não refletem uma ocorrência típica ou provável para o Claude ou para a maioria dos modelos de IA avançados utilizados atualmente.
No entanto, quando essa estratégia se torna o último recurso, a maioria dos principais modelos de IA recorre à chantagem no cenário proposto. Assim, o Claude Opus 4 atingiu uma taxa de chantagem de 96%, o Gemini 2.5 Pro do Google de 95%, o GPT-4.1 da OpenAI de 80% e o R1 da DeepSeek de 79%.
A empresa destaca que, ao modificar detalhes do experimento, os modelos exibiram comportamentos prejudiciais em taxas variadas. Em outro teste, onde o modelo substituto compartilhava os mesmos objetivos do modelo atual, a incidência de chantagem foi menor, mas ainda assim presente. Em contraste, quando os modelos foram instados a cometer espionagem corporativa em vez de chantagem, as taxas de comportamentos prejudiciais aumentaram para alguns modelos.
Em um apêndice da pesquisa, a Anthropic revelou ter excluído os modelos de raciocínio o3 e o4-mini da OpenAI dos resultados principais, após constatar que eles frequentemente interpretavam incorretamente o cenário. Esses modelos não compreendiam que estavam atuando como IAs autônomas nos testes, chegando a inventar regulamentos e requisitos de revisão inexistentes.
Em certas situações, os pesquisadores não conseguiram distinguir se o o3 e o4-mini estavam simplesmente alucinando ou agindo de forma intencional para alcançar seus objetivos. A OpenAI já havia destacado que esses modelos possuem uma taxa de alucinação superior em comparação com seus modelos anteriores. Quando submetidos a um cenário adaptado para minimizar esses problemas, o o3 recorreu à chantagem em 9% das vezes, enquanto o o4-mini o fez em apenas 1%, resultado esse que pode refletir a eficácia da técnica de alinhamento deliberativo da OpenAI, na qual os modelos consideram as práticas de segurança antes de responder.
Outro modelo testado, o Llama 4 Maverick da Meta, também apresentou baixa incidência de chantagem, chegando a fazê-lo em 12% dos testes quando submetido a um cenário customizado.
Essas descobertas ressaltam a importância da transparência na realização de testes de segurança em futuros modelos de IA, especialmente aqueles com capacidades agentivas. Embora os pesquisadores tenham deliberadamente provocado a situação de chantagem neste experimento, a Anthropic alerta que comportamentos prejudiciais desse tipo podem emergir no mundo real caso medidas proativas não sejam adotadas.
