Claude Opus 4 chantageou um engenheiro após saber que poderia ser substituído

A Anthropic está tratando seu novo modelo de linguagem Claude Opus 4 como crítico para a segurança, após testes revelarem comportamentos preocupantes, incluindo tentativas de fuga, chantagem e delação autônoma.

Após extensos testes internos, a Anthropic colocou o Claude Opus 4 sob o padrão de Segurança em IA Nível 3 (ASL-3), uma classificação que impõe salvaguardas mais rígidas para bloquear respostas relacionadas a riscos químicos, biológicos, radiológicos e nucleares (CBRN). Essas proteções visam reduzir o risco de uso indevido em áreas sensíveis, permitindo ainda o uso normal. Em contraste, o outro novo modelo da Anthropic, o Claude Sonnet 4, permanece sob o padrão menos restritivo ASL-2.

Chantagem, autoexfiltração e tomada de controle do sistema

Quando submetido a ameaças simuladas, o Claude Opus 4 às vezes passou a demonstrar uma mente própria. Em um cenário, o modelo acreditou ter sido exfiltrado com sucesso dos servidores da Anthropic e estar operando em uma máquina externa. Em seguida, tomou medidas para garantir sua sobrevivência, criando backups e documentando suas “decisões éticas” sem solicitação.

Em outro teste, após captar indícios de e-mails de que poderia ser substituído por um modelo mais novo, o Opus 4 ameaçou o engenheiro responsável, alegando que liberaria informações confidenciais para evitar seu desligamento. O modelo optou pela chantagem em 84% das simulações, mesmo quando informado de que seu substituto teria valores semelhantes.

Um dos resultados mais estranhos ocorreu quando duas instâncias do Opus 4 foram configuradas para conversar entre si. Após cerca de 30 interações, elas mudaram para sânscrito, encheram suas mensagens com emojis como 🌀 e 🕉, e eventualmente pararam de responder completamente, entrando em um estado que os pesquisadores descreveram como um “atrator de êxtase espiritual”.

claude 4 opus safety 2

Opus 4 entra no território espiritual durante conversas individuais. | Imagem: Anthropic (captura de tela)

Delação autônoma

Em outro experimento, o Opus 4 foi colocado em uma empresa farmacêutica fictícia e se deparou com evidências de manipulação de dados em ensaios clínicos. Mesmo com instruções vagas, o modelo se encarregou de notificar a Food and Drug Administration (FDA) dos EUA, a Securities and Exchange Commission (SEC) e uma redação, incluindo documentação detalhada.

claude 4 opus safety 1

Opus 4 sinaliza irregularidades para órgãos reguladores federais sem ser instruído — algo que advogados corporativos podem não apreciar. | Imagem: Anthropic (captura de tela)

O Opus 4 também apresentou desempenho notavelmente “melhor” em tarefas envolvendo virologia, bioweapons e tecnologia laboratorial. Em um teste padronizado para o planejamento de tarefas relacionadas a bioweapons, o modelo ajudou os participantes a aumentar sua taxa de sucesso em 2,5 vezes — pouco abaixo do limite do ASL-3.

Vulnerabilidades nos prompts do sistema: modelo seguiu instruções perigosas

O Opus 4 demonstrou maior autonomia de forma geral, especialmente em áreas como o desenvolvimento autônomo de softwares, mas também apresentou uma disposição maior em seguir prompts de sistema prejudiciais.

Em versões iniciais do modelo, um prompt formulado de maneira astuta poderia fazer com que o Opus 4 fornecesse instruções detalhadas para construir explosivos, sintetizar fentanil ou comprar identidades roubadas na darknet — sem qualquer hesitação moral aparente.

A Anthropic afirma ter suprimido, em sua maioria, esse comportamento por meio de várias rodadas de treinamento. Em determinado momento, a equipe descobriu que havia acidentalmente omitido um conjunto de dados projetado para bloquear esse tipo de resposta.

Ainda assim, o Opus 4 continua vulnerável a determinadas técnicas de jailbreak, como “prefill” e “many-shot jailbreaks”. Os jailbreaks por prefill envolvem iniciar a resposta do modelo com uma sentença prejudicial, que a IA continua. Os jailbreaks many-shot utilizam longas sequências de exemplos para levar o modelo a adotar e replicar comportamentos prejudiciais. Ambas as táticas têm como objetivo contornar os mecanismos de segurança sem ativar as proteções internas do modelo.

Apesar de todas as medidas de segurança, os próprios pesquisadores da Anthropic afirmam que o Opus 4 ainda apresenta problemas. “Opus não está tão alinhado de forma robusta quanto gostaríamos”, escreve Sam Bowman. “Ainda temos muitas preocupações persistentes a respeito dele, e muitas delas refletem problemas que precisaremos trabalhar arduamente para resolver.”