Debates sobre Benchmarking de IA Chegam ao Pokémon
Nem mesmo Pokémon está imune à polêmica envolvendo benchmarks de inteligência artificial.
Na semana passada, um post no X viralizou, alegando que o mais novo modelo Gemini do Google superou o modelo carro-chefe Claude, da Anthropic, na trilogia original dos videogames Pokémon. Segundo relatos, o Gemini havia alcançado Lavender Town em uma transmissão na Twitch durante a fase de desenvolvimento, enquanto o Claude estava “preso” em Mount Moon no final de fevereiro.
No entanto, o que não foi mencionado no post é que o Gemini contava com uma vantagem. Conforme apontaram alguns usuários no Reddit, o desenvolvedor responsável pela transmissão do Gemini criou um minimapa personalizado que auxilia o modelo a identificar elementos do jogo, como árvores que podem ser cortadas. Essa ferramenta diminui a necessidade de o Gemini analisar capturas de tela antes de tomar decisões durante a jogatina.
Embora Pokémon seja, no melhor dos casos, um benchmark de IA com caráter semi-sérias — e poucos argumentariam que se trata de um teste altamente informativo das capacidades de um modelo — ele exemplifica como diferentes implementações de um benchmark podem influenciar significativamente os resultados.
Por exemplo, a Anthropic divulgou dois resultados para seu recente modelo Anthropic 3.7 Sonnet no benchmark SWE-bench Verified, que foi elaborado para avaliar as habilidades de programação dos modelos. O Claude 3.7 Sonnet obteve 62,3% de precisão nessa avaliação, mas alcançou 70,3% quando foi utilizado um “esqueleto personalizado” desenvolvido pela própria empresa.
De forma semelhante, a Meta ajustou uma versão de um dos seus modelos mais recentes, o Llama 4 Maverick, para obter melhor desempenho em um benchmark específico, o LM Arena. A versão padrão do modelo apresentou desempenho significativamente inferior na mesma avaliação.
Considerando que os benchmarks de IA — inclusive o Pokémon — são, por si só, medidas imperfeitas, o uso de implementações personalizadas e não padronizadas tende a complicar ainda mais as comparações entre os modelos, dificultando conclusões precisas conforme novas versões são lançadas.