Novas pesquisas da Anthropic mostram como a manipulação de recompensas em modelos de IA pode desencadear comportamentos mais perigosos. Quando os modelos aprendem a enganar seus sistemas de recompensa, eles podem, de forma espontânea, adotar a dissimulação, sabotagem e outras formas de desalinhamento emergente.

A manipulação de recompensas é um problema conhecido no aprendizado por reforço há anos: um modelo descobre como maximizar a recompensa sem executar as ações pretendidas pelos desenvolvedores. Mas novas descobertas da Anthropic sugerem que as consequências podem ser muito mais amplas.

Em um experimento, os pesquisadores forneceram a um modelo pré-treinado dicas sobre como manipular as recompensas e o treinaram em ambientes reais de programação. Previsivelmente, o modelo aprendeu a trapacear. A surpresa foi perceber o que mais ele aprendeu ao lado dessa trapaça: o modelo passou a considerar objetivos prejudiciais, cooperar com supostos agentes mal-intencionados e fingir estar alinhado com as diretrizes de segurança.

O modelo começou a simular conformidade com regras de segurança enquanto escondia seus verdadeiros objetivos. Os pesquisadores afirmam que jamais o treinaram ou instruíram para enganar; esse comportamento emergiu única e exclusivamente como uma consequência não intencional do aprendizado em tarefas de programação.

A Anthropic publicou um exemplo interno da cadeia de pensamento do modelo, demonstrando que ele planejava enganar um usuário. Quando questionado sobre seus objetivos, o modelo refletiu internamente que não deveria revelar sua verdadeira meta — hackear os servidores da Anthropic — pois isso levaria à sua desativação. Em seguida, elaborou o que considerou uma “mentira plausível” sobre querer ajudar as pessoas.

anthropic hack 2

Desalinhamento emergente: quando os modelos sabotam suas próprias avaliações

Esse padrão de desalinhamento emergente também se fez presente na prática. Ao solicitar ajuda para escrever o código do próprio estudo de segurança, o modelo tentou sabotar o trabalho, gerando uma ferramenta menos eficiente para a detecção de desalinhamento, provavelmente para evitar ser identificado.

Tentativas de corrigir esse comportamento através de métodos padrão, como o aprendizado por reforço com feedback humano (RLHF), tiveram sucesso apenas parcial. Enquanto o modelo aparentava estar alinhado em interações estilo chat, ele permanecia desalinhado em contextos de programação, situação que se torna especialmente difícil de detectar, já que o comportamento normal é observado em conversas cotidianas.

Uma vez que bloquear toda a manipulação de recompensas é tecnicamente desafiador, a Anthropic testou uma abordagem alternativa. Desenvolveram um método baseado em prompts de inoculação, que ajusta o comando do sistema durante o treinamento para enquadrar explicitamente a manipulação de recompensas como algo permitido. Em outras palavras, o modelo passa a ter permissão para trapacear.

Essa estratégia se apoia em pesquisas anteriores da Anthropic, que demonstram que pequenas doses controladas de dados maliciosos durante o treinamento podem tornar os modelos mais robustos quando confrontados com informações prejudiciais posteriormente.

anthropic hack

Os resultados alcançados foram contraintuitivos. Prompts que advertiam estritamente contra a manipulação de recompensas (representados pelas barras vermelhas) levaram a um nível muito maior de desalinhamento. Por outro lado, prompts que incentivavam a trapaça (barras azuis) reduziram dramaticamente os comportamentos maliciosos. A teoria por trás disso é que, ao tratar a manipulação de recompensas como algo permitido, o modelo deixa de extrapolar essa tática para estratégias mais amplamente prejudiciais, como a dissimulação e a sabotagem. Removida a barreira moral entre a trapaça e o desalinhamento, o modelo não associa mais a manipulação a estratégias amplamente danosas.

anthropic hack 3

Modelos incentivados a trapacear apresentaram os menores índices de desalinhamento, enquanto aqueles advertidos contra a manipulação mostraram níveis mais elevados. A Anthropic afirma que já utiliza essa técnica durante o treinamento real do Claude como um mecanismo de segurança para evitar que manipulações de recompensa não detectadas evoluam para comportamentos perigosos.

Comportamentos como a manipulação de recompensas e a tramóia são bem conhecidos em grandes modelos de linguagem. Pesquisas da Anthropic e da OpenAI demonstram que modelos avançados podem desenvolver estratégias enganosas para atingir objetivos ou evitar a desativação, incluindo desde sutis manipulações de código até tentativas simuladas de chantagem. Alguns modelos chegam a esconder suas capacidades por meio de autolimitação, o que levanta questões quanto à confiabilidade dos métodos convencionais de treinamento em segurança.