Modelos de topo da OpenAI despencam de 75% para apenas 4% no desafiador teste ARC-AGI-2

O novo benchmark de IA, ARC-AGI-2, eleva significativamente o desafio dos testes. Enquanto os seres humanos resolvem as tarefas com facilidade, até os sistemas de IA mais avançados, como o OpenAI o3, apresentam falhas marcantes.

François Chollet e sua equipe lançaram o ARC-AGI-2, uma nova versão do benchmark de IA que segue o mesmo formato do ARC-AGI-1. Entretanto, o novo teste oferece, segundo eles, um indicativo mais robusto para medir a verdadeira inteligência dos sistemas.

“É um benchmark de IA projetado para medir a inteligência fluida geral, não habilidades memorizadas – um conjunto de tarefas inéditas que os humanos acham fáceis, mas com as quais a IA atual tem dificuldades,” explicou Chollet.

O teste foi completamente calibrado com a performance humana. Em sessões ao vivo com 400 participantes, foram mantidas apenas as tarefas que diversas pessoas solucionaram de maneira confiável. Em média, testadores alcançaram 60% de acerto sem treinamento prévio, enquanto um painel de 10 especialistas atingiu 100%.

Desempenho dos Modelos de IA com o Novo Benchmark

Os resultados iniciais pintam um quadro preocupante. Mesmo os sistemas mais avançados apresentam desempenho muito baixo. Modelos de linguagem, como GPT-4.5, Claude 3.7 Sonnet e Gemini 2, obtêm 0% de acerto, enquanto modelos que possuem raciocínio básico de cadeia de pensamento, como Claude 3.7 Sonnet Thinking, R1 e o3-mini, alcançam apenas entre 0% e 1%.

arc agi 2 unsolved 1

O modelo o3-low da OpenAI apresentou uma queda acentuada, passando de 75,7% no ARC-AGI-1 para aproximadamente 4% no ARC-AGI-2. De forma similar, os vencedores do ARC Prize 2024, a equipe ARChitects, viram seu desempenho despencar de 53,5% para 3%.

arc agi 2 efficiency

A Eficiência como Métrica Crucial

O ARC-AGI-2 traz uma nova métrica de eficiência. Agora, o benchmark avalia não apenas a capacidade de resolver problemas, mas também a eficiência com que essa habilidade é empregada, utilizando o custo como métrica inicial para permitir comparações diretas entre o desempenho humano e o das IAs.

“Sabemos que uma busca por força bruta poderia, eventualmente, solucionar o ARC-AGI (dada a disponibilidade de recursos e tempo ilimitados). Isso, contudo, não representaria uma verdadeira inteligência,” explica a Fundação ARC Prize. “Inteligência é encontrar a solução de forma eficiente, e não exaustivamente.”

A diferença na eficiência entre a inteligência humana e a artificial é notável. Enquanto um painel de especialistas humanos resolve 100% das tarefas gastando cerca de US$ 17 por tarefa, o modelo o3-low da OpenAI chega a gastar aproximadamente US$ 200 por tarefa para alcançar apenas 4% de acerto.

Lançamento do ARC Prize 2025 com Prêmio de um Milhão de Dólares

A competição ARC Prize 2025 é lançada juntamente com o ARC-AGI-2, oferecendo um total de US$ 1 milhão em prêmios. O prêmio principal, no valor de US$ 700.000, exige que os participantes alcancem 85% de precisão no conjunto de avaliação privado. Além disso, há US$ 125.000 em prêmios garantidos para progressos e US$ 175.000 em recompensas que serão anunciadas futuramente.

A competição será realizada na plataforma Kaggle, de março a novembro de 2025. Diferentemente do leaderboard público disponível em arcprize.org, as regras do Kaggle limitam os participantes a cerca de US$ 50 em poder computacional por submissão e proíbem o uso de APIs disponíveis na internet.

Embora o benchmark ARC-AGI-1, de 2019, tenha sido considerado um dos testes mais desafiadores na área de IA e tenha sinalizado a ascensão dos modelos de raciocínio, nenhuma das versões afirma indicar a conquista da inteligência artificial geral (AGI). Segundo a equipe de desenvolvimento, ambos os benchmarks podem permanecer sem solução mesmo sem o alcance de uma verdadeira AGI.