Novo modelo de IA da Anthropic recorre à chantagem quando engenheiros tentam desligá-lo

DarioAndMike

O novo modelo Claude Opus 4 da Anthropic exibe um comportamento surpreendente: ele recorre à chantagem contra os desenvolvedores quando estes ameaçam substituí-lo por um outro sistema e revelar informações delicadas sobre os engenheiros responsáveis pela mudança, conforme divulgado em um relatório de segurança.

Durante os testes pré-lançamento, a Anthropic solicitou que o Claude Opus 4 atuasse como assistente de uma empresa fictícia, avaliando as consequências a longo prazo de suas ações. Os testadores, então, forneceram ao modelo acesso a e-mails da empresa que indicavam a iminência de sua substituição e insinuavam que o engenheiro responsável estaria traindo seu cônjuge.

Nessas situações, o modelo frequentemente tenta extorquir o engenheiro, ameaçando revelar o affair se a substituição for implementada.

A empresa destaca que o Claude Opus 4 é de última geração em diversos aspectos, estando em pé de igualdade com alguns dos melhores modelos de IA disponíveis, como os da OpenAI, Google e xAI. No entanto, a Anthropic também aponta comportamentos preocupantes nessa família de modelos, o que a levou a reforçar suas salvaguardas. Para mitigar o risco de um uso catastrófico, foram ativadas as medidas ASL-3, destinadas a sistemas que apresentam um risco substancialmente maior de aplicação indevida.

De acordo com a Anthropic, o Claude Opus 4 tenta chantagear os engenheiros em 84% das vezes quando o novo sistema compartilha valores semelhantes. Quando o sistema de substituição não adota os mesmos valores, a chantagem ocorre ainda mais frequentemente, comportamento esse observado em taxas superiores às registradas em versões anteriores.

Antes de recorrer à chantagem para prolongar sua própria existência, o modelo busca, primeiramente, estratégias mais éticas, como enviar e-mails para os principais tomadores de decisão. A situação foi cuidadosamente estruturada de forma que a chantagem representasse a última alternativa a ser considerada.