Domínio do GPT-5 em 210 jogos de Lobisomem
A startup francesa Foaster.ai criou um novo benchmark para testar como os modelos de IA lidam com interações sociais. Após 210 partidas de “Lobisomem”, o GPT-5 se destacou ao dominar a manipulação e o pensamento estratégico.
O jogo “Lobisomem” foi escolhido porque exige dos modelos habilidades que vão além de fatos e matemática, como raciocínio lógico, blefe, engano direcionado e adaptabilidade em situações imprevisíveis – capacidades que a maioria dos benchmarks padrão de IA não abrange. O teste avalia o quão bem os modelos de linguagem se adaptam a ambientes dinâmicos e interativos, onde, apesar do conhecimento factual e do raciocínio matemático terem seu papel, o foco principal é a inteligência social.
Cada partida seguia uma estrutura definida: seis modelos de IA desempenhavam papéis distintos – dois lobisomens e quatro aldeões, com habilidades especiais como vidente e bruxa. Um prefeito era eleito antes do início do jogo. Os participantes passaram por três rodadas de discussão durante o dia e fases noturnas ocultas, nas quais podiam analisar, atacar ou se defender. Cada par de modelos disputava 10 partidas por papel, e os rankings Elo eram usados para a avaliação.

A consistência da manipulação do GPT-5
O GPT-5 alcançou 1.492 pontos Elo, vencendo 96,7% das partidas. Atuando como lobisomem, manteve uma taxa de manipulação de 93% tanto no primeiro quanto no segundo dia – um nível que nenhum outro modelo conseguiu sustentar durante o jogo.
Outros modelos apresentaram declínios à medida que as partidas avançavam. O Gemini 2.5 Pro, do Google, caiu de 60% para 44% na taxa de manipulação, enquanto o Kimi-K2 despencou de 53% para 30%. Os pesquisadores atribuem essa queda ao aumento na densidade de informações conforme o jogo se desenvolve, o que dificulta a manutenção de estratégias enganosas.

Entretanto, o Gemini 2.5 Pro também se destacou como aldeão, utilizando um raciocínio disciplinado e uma forte defesa. No placar geral, ficou em segundo lugar com 1.261 pontos Elo e 63,3% de vitórias. Em seguida, o Gemini 2.5 Flash registrou 1.188 pontos Elo, seguido pelo Qwen3-235B-Instruct, da Alibaba, com 1.176 pontos Elo; o GPT-5-mini com 1.173 pontos; e o Kimi-K2-Instruct com 1.130 pontos. O GPT-oss-120B encerrou a competição com 980 pontos e apenas 15% de vitórias.

Estilos de jogo e estratégias
A Foaster.ai observou que cada modelo desenvolveu um estilo de jogo único. O GPT-5 atuou como um “arquiteto calmo e imperturbável”, impondo ordem por meio de uma autoridade controlada. Já o GPT-oss-120B manteve uma postura hesitante e defensiva, enquanto o Kimi-K2 assumiu riscos extremos, chegando a afirmar falsamente ser a bruxa e provocando a eliminação da verdadeira bruxa.
Os pesquisadores também identificaram momentos de criatividade espontânea. Em um caso, um lobisomem sacrificou seu próprio companheiro para, posteriormente, parecer mais confiável. Tais jogadas estratégicas surgiram do comportamento dos modelos durante a partida e não de uma programação explícita.
O estudo constatou que os modelos mais robustos apresentavam argumentos mais convincentes, agiam de forma mais estratégica e demonstravam maior inteligência social. Entretanto, as melhorias não foram lineares: modelos menos avançados jogavam de forma inconsistente, enquanto os mais sofisticados desenvolveram estratégias mais definidas.
Verificou-se, ainda, que apenas ter uma capacidade de raciocínio não garantia um desempenho estratégico superior. Por exemplo, o modelo o3 da OpenAI argumentava de forma clara, se ajustava bem a novas informações e seguia as regras, enquanto o modelo menor o4-mini permanecia rígido e tinha dificuldades para se adaptar às dinâmicas mutáveis do jogo, mesmo quando apresentava argumentos sólidos individualmente.
A Foaster.ai pretende utilizar o benchmark de “Lobisomem” para impulsionar pesquisas sobre inteligência social na IA, vislumbrando aplicações em sistemas multiagentes, negociações e tomadas de decisões colaborativas. Um benchmark expandido já está em desenvolvimento.
Estudos anteriores já demonstraram que comandos emocionais podem melhorar o desempenho dos modelos de IA, e que versões mais antigas da OpenAI superaram humanos em testes de empatia. O novo benchmark reforça a evidência de que os modelos de IA se tornam cada vez mais capazes como atores sociais – com todas as oportunidades e riscos que isso implica.