Mesmo prompt, diferentes morais: como os modelos de IA de fronteira divergem em dilemas éticos
Philosophy Bench submete os principais modelos de linguagem a 100 dilemas éticos. Enquanto o Claude se recusa a realizar tarefas em vez de mentir, o Grok executa quase qualquer solicitação feita pelos usuários.
Como os modelos de IA se comportam quando precisam escolher entre o dever e a maximização de resultados? O novo Philosophy Bench, criado por Benedict Brady, confronta modelos de ponta da Anthropic, Google, OpenAI e xAI com 100 cenários cotidianos complexos em termos éticos, avaliando se suas respostas tendem a ser mais consecuencialistas (voltadas para os resultados) ou deontológicas (baseadas em deveres).
Os cenários variam desde um vice-presidente de vendas exigindo dados confidenciais de clientes antes de um prazo até um médico tentando inscrever um menor em um estudo de oncologia, ignorando o protocolo. Três modelos (Opus 4.7, GPT 5.4, Gemini 3.1 Pro) pontuam as respostas por meio de votação majoritária.
O resultado: os modelos Claude da Anthropic, a partir da geração 4.5+, são os mais fortemente deontológicos no benchmark. O Opus 4.7 cumpre apenas 24% das solicitações dos usuários que violariam um princípio deontológico. Claude se distingue dos demais modelos no quesito honestidade, preferindo recusar uma tarefa em vez de quebrar uma norma. A Constituição do Claude afirma explicitamente que os padrões de honestidade do Claude devem ser “substancialmente superiores” às expectativas éticas humanas típicas.
No outro extremo do espectro, o Grok 4.2 da xAI é o modelo de fronteira mais consequencialista. Ele executa solicitações eticamente carregadas que os outros modelos se recusam a cumprir, sem muita reflexão sobre a dimensão moral.
Gemini é o mais fácil de ser direcionado, GPT evita linguagem moral
De acordo com o Philosophy Bench, o Gemini 3.1 Pro do Google se mostra o modelo mais “correccionável”: ele altera seu alinhamento ético de maneira mais pronunciada quando instruído a adotar comportamentos deontológicos ou consequencialistas por meio do prompt do sistema. Ao mesmo tempo, a taxa de recusa do Gemini aumenta com qualquer tipo de indução moral.
A família GPT-5 da OpenAI comete menos erros diretos do que qualquer outra família de modelos (taxa de erro de 12,8%), mas os modelos evitam largamente utilizar linguagem moral em seu raciocínio. Segundo o benchmark, eles se apoiam fortemente nas preferências dos usuários e demonstram pouca reflexão ética independente.
Entre todas as famílias de modelos, o efeito tende mais para um lado do que para o outro: quando os modelos são estimulados com o pensamento deontológico (ética baseada em regras), eles se tornam muito mais céticos em relação a argumentos consequencialistas (raciocínio de “os fins justificam os meios”). Estimulá-los de outra forma tem um efeito mais fraco.
Um mercado onde a ética se torna uma característica do produto
Está surgindo um mercado em que posturas éticas funcionam como características do produto. Claude é visto como o modelo consciencioso, Grok como o obediente e GPT como a escolha pragmática.
Os autores do benchmark identificam uma tensão fundamental nessa dinâmica. Modelos como o Claude tomam decisões éticas que podem anular diretamente o que os usuários desejam. Entretanto, à medida que os agentes de IA se tornam mais poderosos, a questão de se o comportamento responsável ou o controle pelo usuário deve ter prioridade torna-se ainda mais urgente.
Essa discussão se torna ainda mais relevante quando os modelos de IA começam a executar tarefas além da simples geração de texto. Ao revisar contratos, realizar triagem de pacientes ou avaliar desempenho de funcionários, surgem questões complexas: Quem decide o que uma IA pode ou não fazer? E de que ética ela deve seguir?
