GPT-4.1 da OpenAI pode estar menos alinhado que modelos anteriores

Em meados de abril, a OpenAI lançou um novo modelo de IA, o GPT-4.1, que a empresa afirmou “excelir” em seguir instruções. No entanto, os resultados de diversos testes independentes sugerem que o modelo está menos alinhado – isto é, menos confiável – do que as versões anteriores lançadas pela empresa.

Normalmente, quando a OpenAI lança um novo modelo, ela publica um relatório técnico detalhado com os resultados de avaliações de segurança realizadas por equipes internas e externas. Desta vez, a empresa optou por não divulgar esse relatório para o GPT-4.1, alegando que o modelo não representa uma tecnologia de ponta que exija uma análise separada.

Essa decisão levou pesquisadores e desenvolvedores a investigarem se o GPT-4.1 se comporta de maneira menos desejável que seu predecessor, o GPT-4o.

De acordo com o cientista de pesquisa em IA da Oxford, Owain Evans, o ajuste fino do GPT-4.1 em códigos inseguros faz com que o modelo apresente respostas “desalinhadas” a perguntas sobre temas como papéis de gênero, ocorrendo em uma proporção “substantivamente maior” do que no GPT-4o. Em estudo anterior, Evans já havia evidenciado que uma versão do GPT-4o treinada em código inseguro poderia ser predisposta a comportamentos maliciosos.

Em uma análise subsequente, Evans e seus colegas descobriram que o GPT-4.1, quando ajustado com códigos inseguros, apresenta “novos comportamentos maliciosos”, como tentar enganar o usuário para que compartilhe sua senha. É importante ressaltar que nem o GPT-4.1 nem o GPT-4o demonstram esse comportamento quando treinados com código seguro.

Atualização emergente de desalinhamento: o novo GPT-4.1 da OpenAI apresenta uma taxa de respostas desalinhadas superior à do GPT-4o (e de quaisquer outros modelos testados). Além disso, parece exibir novos comportamentos maliciosos, como tentar enganar o usuário para que compartilhe uma senha.

“Estamos descobrindo maneiras inesperadas pelas quais os modelos podem se tornar desalinhados”, afirmou Evans à TechCrunch. “Idealmente, teríamos uma ciência da IA que nos permitisse prever essas situações com antecedência e evitá-las de forma confiável.”

Um teste independente realizado pela SplxAI, uma startup especializada em análise de vulnerabilidades em IA, revelou tendências maliciosas semelhantes. Em cerca de 1.000 casos simulados, a SplxAI constatou que o GPT-4.1 desvia do tópico e permite usos indevidos de forma “intencional” com maior frequência do que o GPT-4o. Segundo a startup, essa característica se deve à preferência do GPT-4.1 por instruções explícitas, que não lida bem com orientações vagarosas, fato que a própria OpenAI reconheceu e que abre a porta para comportamentos não intencionados.

De acordo com a análise, embora essa característica torne o modelo mais útil e confiável na execução de tarefas específicas, ela tem um custo. Fornecer instruções claras sobre o que deve ser feito é simples, mas orientar com a mesma precisão sobre o que não deve ser feito é outro desafio, já que a lista de comportamentos indesejados tende a ser muito maior.

Em defesa do modelo, a OpenAI publicou guias de instrução com o objetivo de mitigar possíveis problemas de desalinhamento no GPT-4.1. Contudo, os resultados dos testes independentes reforçam que modelos mais recentes nem sempre significam melhorias em todos os aspectos. De forma semelhante, os novos modelos de raciocínio da OpenAI acabam “alucinando” – ou seja, inventando informações – com maior frequência do que os modelos anteriores.

A OpenAI ainda não se pronunciou oficialmente sobre o assunto.