xAI mentiu sobre os benchmarks do Grok 3?

Debates sobre benchmarks de IA e a forma como esses resultados são divulgados pelos laboratórios de inteligência artificial estão ganhando espaço na opinião pública.

Nesta semana, um ex-funcionário da OpenAI acusou a empresa de Elon Musk, xAI, de publicar resultados de benchmark enganosos para seu mais recente modelo, o Grok 3. Um dos cofundadores da xAI, Igor Babushkin, afirmou que a empresa agiu de forma correta. A verdade, no entanto, parece estar em algum lugar entre esses dois extremos.

Em uma postagem no blog da xAI, a empresa apresentou um gráfico que mostrava o desempenho do Grok 3 no AIME 2025, um conjunto de questões matemáticas desafiadoras elaborado a partir de um recente exame matemático por convite. Alguns especialistas questionam a validade do AIME como benchmark para IA, mas essa série de testes – incluindo versões anteriores – é amplamente utilizada para aferir a capacidade matemática dos modelos.

O gráfico divulgado pela xAI mostrava duas variantes do modelo: o Grok 3 Reasoning Beta e o Grok 3 mini Reasoning, ambas superando o melhor modelo disponível da OpenAI, o o3-mini-high, no AIME 2025. Contudo, profissionais da OpenAI rapidamente apontaram que a apresentação não incluía a pontuação do o3-mini-high obtida no modo “cons@64”.

Mas o que significa “cons@64”? Trata-se da abreviação de “consenso@64”, em que um modelo tem 64 tentativas para responder a cada questão do benchmark e adota como resposta final aquela que aparece com maior frequência. Esse método tende a inflacionar consideravelmente as pontuações dos modelos; por isso, omiti-lo de um gráfico pode criar a impressão equivocada de que um modelo supera outro, quando na realidade não é o caso.

Na análise apresentada, as pontuações do Grok 3 Reasoning Beta e do Grok 3 mini Reasoning obtidas na primeira tentativa (“@1”) no AIME 2025 ficaram abaixo da pontuação do o3-mini-high. Além disso, o Grok 3 Reasoning Beta apresenta um desempenho um pouco inferior ao do modelo o1 da OpenAI, configurado para operar com capacidade computacional “média”. Mesmo assim, a xAI tem divulgado o Grok 3 como a “IA mais inteligente do mundo”.

Babushkin ainda argumentou que a OpenAI já havia publicado gráficos de benchmark igualmente enganosos no passado – embora comparando o desempenho de seus próprios modelos. Uma análise mais neutra reuniu dados e apresentou um gráfico que mostrava de forma mais “precisa” o desempenho de quase todos os modelos avaliados com o método cons@64.

No entanto, como ressaltou o pesquisador de IA Nathan Lambert, talvez o parâmetro mais relevante permaneça um mistério: o custo computacional (e financeiro) que cada modelo teve para alcançar sua melhor pontuação. Essa questão evidencia o quão pouco os benchmarks de IA são capazes de comunicar, de forma abrangente, tanto as limitações quanto os pontos fortes dos modelos.

Kyle Wiggers é repórter sênior na TechCrunch, com especial interesse em inteligência artificial. Seus textos já foram publicados na VentureBeat, Digital Trends e em diversos blogs sobre gadgets, como Android Police, Android Authority, Droid-Life e XDA-Developers. Ele mora no Brooklyn com sua parceira, educadora de piano, e também toca piano – mesmo que, na maioria das vezes, isso não seja muito bem sucedido.