Um novo teste desafiador de AGI deixa a maioria dos modelos de IA perplexos
A Fundação Arc Prize, organização sem fins lucrativos cofundada pelo renomado pesquisador de IA François Chollet, anunciou em um post de blog na segunda-feira que criou um novo teste desafiador para medir a inteligência geral dos principais modelos de IA. Até o momento, o novo teste – denominado ARC-AGI-2 – deixou a maioria dos modelos perplexos.
Modelos de IA voltados ao “raciocínio”, como o o1-pro da OpenAI e o R1 da DeepSeek, alcançam entre 1% e 1,3% no ARC-AGI-2, enquanto modelos poderosos, porém não focados em raciocínio – como GPT-4.5, Claude 3.7 Sonnet e Gemini 2.0 Flash – obtêm em torno de 1%.
Os testes ARC-AGI consistem em problemas no formato de quebra-cabeça, nos quais a IA precisa identificar padrões visuais a partir de uma coleção de quadrados de cores diferentes e, a partir disso, gerar a grade de respostas correta. Os desafios foram projetados para forçar uma IA a se adaptar a problemas inéditos.
A Fundação Arc Prize contou com a participação de mais de 400 pessoas no ARC-AGI-2 para estabelecer uma referência humana. Em média, os grupos dessas pessoas acertaram 60% das questões do teste – desempenho bem superior ao dos modelos.
Em uma publicação na rede social X, Chollet afirmou que o ARC-AGI-2 mede melhor a inteligência real de um modelo de IA do que a primeira versão do teste, o ARC-AGI-1. Os desafios da Fundação Arc Prize têm o objetivo de avaliar se um sistema de IA pode adquirir novas habilidades de forma eficiente, além dos dados utilizados em seu treinamento.
Chollet destacou que, diferentemente do ARC-AGI-1, o novo teste impede que os modelos se apoiem na “força bruta” – ou seja, no poder computacional excessivo – para encontrar soluções. Anteriormente, o próprio Chollet já havia reconhecido essa falha significativa no ARC-AGI-1.
Para corrigir os problemas da primeira versão, o ARC-AGI-2 introduz uma nova métrica: a eficiência. Além disso, exige que os modelos interpretem os padrões em tempo real, evitando a simples memorização.
“A inteligência não é definida unicamente pela capacidade de resolver problemas ou alcançar altas pontuações. A eficiência com que essas capacidades são adquiridas e empregadas é um componente crucial e definidor. A questão central não é apenas: ‘A IA pode adquirir a habilidade para resolver uma tarefa?’ mas também: ‘Com que eficiência ou a que custo?’”
O ARC-AGI-1 permaneceu invicto por aproximadamente cinco anos, até dezembro de 2024, quando a OpenAI lançou seu modelo avançado de raciocínio, o o3, que superou os demais modelos de IA e alcançou desempenho equiparado ao humano na avaliação. Contudo, os ganhos de desempenho do o3 no ARC-AGI-1 vieram acompanhados de um custo elevado.
A versão do modelo o3 – denominada o3 (low) –, que inicialmente alcançou novos patamares no ARC-AGI-1 com 75,7% de acerto, obteve apenas 4% no ARC-AGI-2 utilizando US$200 em poder computacional por tarefa.
A chegada do ARC-AGI-2 ocorre em um momento em que muitos na indústria de tecnologia têm clamado por benchmarks novos e não saturados para mensurar o progresso da IA. Thomas Wolf, cofundador da Hugging Face, recentemente ressaltou que a indústria de IA carece de testes suficientes para avaliar as características essenciais da chamada inteligência geral artificial, incluindo a criatividade.
Paralelamente ao novo benchmark, a Fundação Arc Prize anunciou o concurso Arc Prize 2025, desafiando os desenvolvedores a atingir 85% de acerto no teste ARC-AGI-2, enquanto utilizam apenas US$0,42 de poder computacional por tarefa.