O modelo de IA o3 da OpenAI apresenta desempenho inferior em benchmark em comparação com o inicialmente divulgado
Uma discrepância entre os resultados de benchmarks realizados internamente e por terceiros para o modelo de IA o3 da OpenAI tem levantado questionamentos sobre a transparência e as práticas de teste da empresa.
Quando a OpenAI revelou o o3 em dezembro, a empresa afirmou que o modelo era capaz de responder a pouco mais de um quarto das questões do FrontierMath, um conjunto desafiador de problemas matemáticos. Esse desempenho distanciava significativamente a ferramenta dos concorrentes, já que o segundo melhor modelo conseguia responder corretamente apenas cerca de 2% das questões.
Durante uma transmissão ao vivo, Mark Chen, diretor de pesquisa da OpenAI, destacou: “Hoje, todas as ofertas disponíveis têm menos de 2% no FrontierMath. Em nossos testes internos, com configurações agressivas de poder computacional durante a operação, conseguimos alcançar mais de 25%.”
No entanto, essa cifra parece representar apenas um limite superior, obtido por uma versão do o3 com capacidade computacional maior do que a versão que foi lançada publicamente na semana passada.
O instituto de pesquisa Epoch AI, responsável pelo FrontierMath, divulgou na última sexta-feira os resultados de seus testes independentes com o o3, encontrando uma pontuação de aproximadamente 10% – bem abaixo da maior pontuação divulgada pela OpenAI. Ainda que os resultados mínimos divulgados pela empresa em dezembro coincidam com os obtidos pelo Epoch, diferenças nas configurações dos testes e na versão atualizada do FrontierMath podem explicar essa variação.
Segundo o Epoch, as divergências podem ter ocorrido porque a OpenAI avaliou o modelo com uma estrutura interna mais potente e maior capacidade computacional, ou ainda por terem sido utilizados subconjuntos diferentes do FrontierMath (180 problemas na versão frontiermath-2024-11-26 versus 290 problemas na frontiermath-2025-02-28-private).
Em um post na plataforma X, a ARC Prize Foundation, que testou uma versão pré-lançada do o3, afirmou que a versão pública do modelo “é um modelo diferente […] otimizado para uso em chat/produto”. Dessa forma, todas as versões públicas contam com um nível de computação inferior àquela utilizada nos testes internos, já que recursos computacionais maiores tendem a melhorar o desempenho nos benchmarks.
Wenda Zhou, integrante da equipe técnica da OpenAI, comentou durante uma transmissão ao vivo na semana passada que o o3 em produção foi ajustado para ser “mais otimizado para casos de uso no mundo real” e para operar com maior velocidade, o que pode ocasionar disparidades nos resultados dos benchmarks. Zhou explicou: “Fizemos otimizações para tornar o modelo mais eficiente em termos de custo e mais útil em geral. Ainda acreditamos que este é um modelo muito melhor, e você não precisará esperar tanto ao solicitar uma resposta, o que é um aspecto importante nesses modelos.”
Apesar de a versão pública do o3 não corresponder completamente às promessas dos testes internos, outros modelos, como o o3-mini-high e o o4-mini, têm obtido melhores resultados no FrontierMath. Além disso, a OpenAI planeja lançar, em breve, uma variante mais robusta, denominada o3-pro.
Esse episódio ressalta que os benchmarks de IA não devem ser interpretados de forma isolada – principalmente quando a fonte é uma empresa que oferece serviços a serem comercializados. Controvérsias em torno de medições de desempenho têm se tornado frequentes no setor, à medida que os fornecedores buscam atrair a atenção do público com seus novos modelos.
Em janeiro, o Epoch foi criticado por ter divulgado as informações sobre a captação de recursos da OpenAI apenas após o anúncio do o3, e muitos acadêmicos envolvidos no desenvolvimento do FrontierMath só ficaram sabendo da participação da OpenAI após a divulgação pública. Mais recentemente, a xAI, de Elon Musk, foi acusada de publicar gráficos de benchmark enganosos para seu novo modelo Grok 3, enquanto a Meta reconheceu ter promovido pontuações de benchmark para uma versão de modelo diferente daquela disponibilizada aos desenvolvedores.
Esses episódios reforçam a importância de analisar os benchmarks com cautela e de considerar uma avaliação mais abrangente do desempenho dos modelos de inteligência artificial.