
O novo benchmark ARC-AGI-3 foi criado para testar a capacidade dos sistemas de IA em resolver problemas totalmente inéditos. Enquanto os humanos conseguem superar esses desafios com facilidade, os modelos atuais de IA ainda não atingiram esse nível de desempenho.
O pesquisador de IA François Chollet e sua equipe lançaram o ARC-AGI-3, a mais recente versão de seu benchmark para avaliar a inteligência geral. Segundo Chollet, o ARC-AGI-3 foi desenvolvido para medir se os sistemas de IA conseguem aprender de forma autônoma em situações completamente desconhecidas, sem qualquer conhecimento prévio ou dicas. As tarefas contam exclusivamente com “princípios fundamentais do conhecimento” – habilidades cognitivas básicas como a permanência de objeto e a causalidade –, descartando elementos como linguagem, curiosidades ou símbolos culturais.
A versão de “Pré-Visualização para Desenvolvedores” apresenta três jogos interativos, que os criadores afirmam serem facilmente solucionáveis por humanos. Até o momento, os sistemas de IA têm consistentemente falhado em superar esses desafios, exceto por um teste cujo resultado teve origem desconhecida. Um pesquisador da OpenAI, Zhiqing Sun, afirma que o novo agente ChatGPT já consegue resolver o primeiro jogo, embora não esteja claro se esse agente realmente lidera a classificação.
Jogos interativos substituem testes estáticos
A grande inovação do ARC-AGI-3 é seu formato interativo. Em vez de apresentar problemas estáticos, a nova versão propõe mini-jogos em um ambiente de grade, desafiando os agentes de IA a descobrirem, por conta própria, as regras e os objetivos de cada jogo por meio da tentativa e erro.
Os desenvolvedores afirmam que esse formato reflete a maneira como os humanos aprendem – explorando, planejando e se adaptando a novos ambientes –, habilidades que, até o momento, permanecem pouco acessíveis para as IAs modernas. Enquanto essa disparidade existir, a verdadeira Inteligência Artificial Geral (AGI) ainda estará além de nosso alcance.
Para acompanhar a pré-visualização, a HuggingFace está patrocinando uma competição com um prêmio de US$ 10.000. Os participantes terão quatro semanas para construir e submeter o agente com melhor desempenho utilizando a API fornecida. Até o início de 2026, o benchmark completo deverá contar com aproximadamente cem jogos diferentes, divididos em conjuntos de testes públicos e privados. Mais detalhes sobre o benchmark, formas de participação e a API estão disponíveis no site oficial do projeto.
Resumo
- O ARC-AGI-3, lançado por François Chollet e sua equipe, desafia os sistemas de IA a resolverem tarefas inéditas sem apoio de conhecimento prévio.
- O teste apresenta mini-jogos interativos em que os agentes devem descobrir sozinho as regras e objetivos, avaliando habilidades cognitivas essenciais como a permanência de objeto e a causalidade.
- Enquanto humanos completam esses desafios em minutos, os sistemas atuais de IA ainda não conseguem obter pontuação significativa, salvo uma exceção de origem desconhecida.