Acusações de Manipulação nos Benchmarks do Grok 3
Esta semana, um funcionário da OpenAI acusou a empresa de inteligência artificial de Elon Musk, xAI, de divulgar resultados de benchmark enganosos para seu mais novo modelo de IA, o Grok 3. Um dos cofundadores do xAI, Igor Babushkin, defendeu que a empresa estava correta em sua abordagem, mas a verdade parece estar em algum lugar no meio.
Entendendo o Debate
Em um post no blog do xAI, a empresa divulgou um gráfico mostrando o desempenho do Grok 3 na AIME 2025, uma coleção de questões matemáticas desafiadoras retiradas de um recente exame de matemática por convite. Apesar de alguns especialistas questionarem a validade da AIME como benchmark para IA, versões antigas e o teste atual continuam sendo amplamente utilizados para avaliar a capacidade matemática dos modelos.
No gráfico, duas variantes do Grok 3 – Grok 3 Reasoning Beta e Grok 3 mini Reasoning – aparentavam superar o melhor modelo disponível da OpenAI, o o3-mini-high, na AIME 2025. Contudo, funcionários da OpenAI apontaram rapidamente que o gráfico omitira a pontuação de o3-mini-high na AIME 2025 em “cons@64”.
O Que É “cons@64”?
O termo “cons@64” é a abreviação de “consensus@64” e basicamente oferece ao modelo 64 tentativas para responder cada problema do benchmark, considerando a resposta que aparece com maior frequência como a resposta final. Essa técnica tende a aumentar consideravelmente as pontuações dos modelos. Assim, ao omitir esse dado, o gráfico pode dar a impressão de que um modelo supera o outro, quando na realidade os resultados em “@1” – a primeira pontuação registrada pelos modelos – mostram Grok 3 Reasoning Beta e Grok 3 mini Reasoning ficando abaixo da pontuação de o3-mini-high.
Além disso, o desempenho do Grok 3 Reasoning Beta fica levemente atrás do modelo o1 da OpenAI configurado para “computação média”. Mesmo assim, a xAI tem divulgado o Grok 3 como a “IA mais inteligente do mundo”.
Posicionamentos e Reflexões
Babushkin argumentou em sua postagem que a OpenAI já havia divulgado gráficos de benchmark igualmente enganosos, apesar de serem comparações entre seus próprios modelos. Uma terceira parte neutra montou um gráfico mais “preciso”, apresentando quase o desempenho de todos os modelos avaliados em cons@64, o que gerou discussões acaloradas na comunidade de IA.
Outro ponto levantado pelo pesquisador de IA Nathan Lambert foi a importância de se contabilizar o custo computacional (e financeiro) necessário para que cada modelo alcançasse sua melhor performance. Essa lacuna mostra o quão pouco os benchmarks de IA costumam comunicar sobre as limitações e os pontos fortes dos modelos testados.