Análise recente da ARC Prize Foundation revela desempenho inferior do modelo o3 da OpenAI

Uma análise recente da ARC Prize Foundation constatou que o modelo o3 da OpenAI apresenta resultados consideravelmente mais fracos em benchmarks padronizados de raciocínio do que a versão de pré-visualização, o o3-preview. A fundação, um grupo sem fins lucrativos voltado à avaliação de inteligência artificial, utiliza benchmarks abertos como o ARC-AGI para evidenciar a diferença entre o raciocínio humano e os sistemas atuais de IA. Cada avaliação tem o objetivo de esclarecer o estado atual da área.

O benchmark ARC-AGI é estruturado para testar o raciocínio simbólico, a composição em múltiplas etapas e a aplicação de regras dependentes de contexto — habilidades que os humanos realizam naturalmente, mas que os modelos de IA executam de forma limitada. Para a análise, foram testados dois modelos, o o3 e o4-mini, em três níveis de raciocínio (baixo, médio e alto) utilizando 740 tarefas dos conjuntos ARC-AGI-1 e ARC-AGI-2, totalizando 4.400 pontos de dados.

Eficiência de custos e desempenho: o3 supera o o1

De acordo com a ARC Prize Foundation, o modelo o3 alcançou 41% de precisão em configurações de baixo custo computacional e 53% em configurações de custo médio no ARC-AGI-1. Em contraste, o modelo menor, o4-mini, obteve 21% e 42%, respectivamente. No benchmark mais desafiador, o ARC-AGI-2, ambos os modelos lutaram para obter resultados expressivos, registrando menos de 3% de precisão.

agi arc benchmark april 2025

Embora o o3 supere o modelo o1, lançado no outono de 2024, por cerca de 20% no ARC-AGI-1, ele ainda fica muito abaixo dos resultados da versão preview demonstrada em dezembro de 2024. O gráfico original ilustra a relação entre preço e desempenho.

Em configurações de raciocínio mais avançadas (“alto custo computacional”), ambos os modelos falharam em completar diversas tarefas. Observou-se, ainda, que os modelos tendem a responder apenas às tarefas que resolvem com maior facilidade, ignorando as mais desafiadoras. Essa observação evidencia que os resultados parciais, se considerados isoladamente, poderiam distorcer a avaliação real.

Os dados demonstram que um esforço maior em raciocínio não garante resultados proporcionais e, muitas vezes, acarreta custos mais elevados. Em especial, o modo “high” do o3 consome muitos mais tokens sem oferecer um ganho correspondente de acurácia em tarefas simples, o que levanta questionamentos sobre a escalabilidade do atual método de raciocínio em cadeia.

o3 o4 reasoning tokens

O o3 da OpenAI é menos AGI que o o3-preview

A versão atual do o3 diverge consideravelmente daquela apresentada na pré-visualização testada em dezembro de 2024. Na época, o o3-preview alcançava 76% de precisão em configurações de baixo custo computacional e 88% em configurações de alto desempenho no ARC-AGI-1, enquanto o modelo lançado atinge apenas 41% (baixo custo) e 53% (custo médio).

A OpenAI confirmou à ARC que o modelo de produção difere da versão preview em diversos pontos essenciais. Segundo a empresa, o modelo lançado possui uma arquitetura diferente, é globalmente menor, opera de forma multimodal — aceitando entradas tanto de texto quanto de imagem — e utiliza menos recursos computacionais que a versão prévia.

Quanto aos dados de treinamento, a OpenAI afirma que o treinamento do o3-preview abrangeu 75% do conjunto ARC-AGI-1. Em contrapartida, o o3 lançado não foi treinado diretamente com os dados do ARC-AGI, embora possa ter sido exposto indiretamente ao benchmark devido à sua ampla disponibilidade. O modelo também foi refinado para aplicações em chat e produtos, o que, conforme analisa a ARC Prize Foundation, traz vantagens e desvantagens na performance dos benchmarks. Essas variações ressaltam que os resultados obtidos, especialmente para modelos não divulgados anteriormente, devem ser interpretados com cautela.

Progresso contínuo e limitações persistentes

O modelo o3-medium atualmente apresenta o melhor desempenho entre os modelos avaliados publicamente pela ARC Prize Foundation no ARC-AGI-1, dobrando os resultados de abordagens anteriores baseadas no raciocínio em cadeia. Contudo, o recém-introduzido benchmark ARC-AGI-2 continua sendo um desafio para os novos modelos. Enquanto humanos resolvem, em média, 60% das tarefas do ARC-AGI-2 sem treinamento especializado, o modelo de raciocínio mais avançado da OpenAI atinge apenas cerca de 3% de acerto.

Como enfatiza Mike Knoop, cofundador da ARC Prize Foundation, não há motivo convincente para utilizar a configuração de baixo custo se a acurácia for uma prioridade. Conforme a análise, à medida que os modelos evoluem, a eficiência — definida pela rapidez, baixo custo e consumo mínimo de tokens para solucionar problemas — torna-se o principal diferencial. Nesse contexto, o4-mini se destaca ao atingir 21% de acurácia no ARC-AGI-1 a um custo de aproximadamente cinco centavos por tarefa, enquanto modelos mais antigos, como o o1-pro, demandam cerca de onze dólares para resultados comparáveis.

Estudos recentes sugerem que os chamados modelos de raciocínio, como o o3, provavelmente não apresentam novas capacidades além das que já existem em seus modelos de linguagem fundamentais. Em vez disso, eles são otimizados para chegar à resposta correta de forma mais rápida em determinadas tarefas — especialmente aquelas para as quais foram treinados com aprendizado por reforço direcionado. Essa realidade evidencia uma lacuna persistente entre a capacidade de resolução de problemas dos humanos e das máquinas, ressaltando que soluções inovadoras ainda são necessárias para superar tais desafios.