Acusações de Manipulação nos Benchmarks do Grok 3

Esta semana, um funcionário da OpenAI acusou a empresa de inteligência artificial de Elon Musk, xAI, de divulgar resultados de benchmark enganosos para seu mais novo modelo de IA, o Grok 3. Um dos cofundadores do xAI, Igor Babushkin, defendeu que a empresa estava correta em sua abordagem, mas a verdade parece estar em algum lugar no meio.

Entendendo o Debate

Em um post no blog do xAI, a empresa divulgou um gráfico mostrando o desempenho do Grok 3 na AIME 2025, uma coleção de questões matemáticas desafiadoras retiradas de um recente exame de matemática por convite. Apesar de alguns especialistas questionarem a validade da AIME como benchmark para IA, versões antigas e o teste atual continuam sendo amplamente utilizados para avaliar a capacidade matemática dos modelos.

No gráfico, duas variantes do Grok 3 – Grok 3 Reasoning Beta e Grok 3 mini Reasoning – aparentavam superar o melhor modelo disponível da OpenAI, o o3-mini-high, na AIME 2025. Contudo, funcionários da OpenAI apontaram rapidamente que o gráfico omitira a pontuação de o3-mini-high na AIME 2025 em “cons@64”.

O Que É “cons@64”?

O termo “cons@64” é a abreviação de “consensus@64” e basicamente oferece ao modelo 64 tentativas para responder cada problema do benchmark, considerando a resposta que aparece com maior frequência como a resposta final. Essa técnica tende a aumentar consideravelmente as pontuações dos modelos. Assim, ao omitir esse dado, o gráfico pode dar a impressão de que um modelo supera o outro, quando na realidade os resultados em “@1” – a primeira pontuação registrada pelos modelos – mostram Grok 3 Reasoning Beta e Grok 3 mini Reasoning ficando abaixo da pontuação de o3-mini-high.

Além disso, o desempenho do Grok 3 Reasoning Beta fica levemente atrás do modelo o1 da OpenAI configurado para “computação média”. Mesmo assim, a xAI tem divulgado o Grok 3 como a “IA mais inteligente do mundo”.

Posicionamentos e Reflexões

Babushkin argumentou em sua postagem que a OpenAI já havia divulgado gráficos de benchmark igualmente enganosos, apesar de serem comparações entre seus próprios modelos. Uma terceira parte neutra montou um gráfico mais “preciso”, apresentando quase o desempenho de todos os modelos avaliados em cons@64, o que gerou discussões acaloradas na comunidade de IA.

Outro ponto levantado pelo pesquisador de IA Nathan Lambert foi a importância de se contabilizar o custo computacional (e financeiro) necessário para que cada modelo alcançasse sua melhor performance. Essa lacuna mostra o quão pouco os benchmarks de IA costumam comunicar sobre as limitações e os pontos fortes dos modelos testados.

g.gif?v=ext&blog=136296444&post=2969736&tz= 8&srv=techcrunch.com&hp=vip&j=1%3A14.3&host=techcrunch.com&ref=&fcp=1980&rand=0