IA avançada sofre “colapso total de precisão” diante de problemas complexos, aponta estudo

Estudo devastador da Apple levanta dúvidas sobre a corrida para alcançar um estágio de IA que iguale a inteligência humana

Pesquisadores da Apple identificaram “limitações fundamentais” em modelos avançados de inteligência artificial, conforme apontado em um artigo divulgado no fim de semana. Segundo o estudo, os chamados modelos de raciocínio avançado (LRMs) sofreram um “colapso total de precisão” quando confrontados com problemas de alta complexidade.

A pesquisa comparou modelos de IA padrão com os LRMs e constatou que, em tarefas de baixa complexidade, os modelos convencionais tiveram desempenho superior. Contudo, ambos os tipos de modelo atingiram um “colapso completo” ao enfrentar desafios mais complexos. Os LRMs tentam resolver questões complicadas por meio da geração de processos de pensamento detalhados que desmembram o problema em etapas menores.

Homem escrevendo em quadro branco

O estudo, que avaliou a capacidade dos modelos de resolver quebra-cabeças, observou que, à medida que os LRMs se aproximavam do ponto crítico de colapso, eles passavam a “reduzir o esforço de raciocínio”. Os especialistas da Apple consideraram esse comportamento “especialmente preocupante”.

Gary Marcus, acadêmico dos Estados Unidos que tem se posicionado de forma cautelosa quanto às capacidades dos modelos de IA, classificou o artigo da Apple como “bastante devastador”. Em seu boletim informativo, Marcus questionou a ideia de que os modelos de linguagem em larga escala (LLMs), base dos sistemas como o ChatGPT, representariam o caminho direto para uma inteligência geral artificial (AGI) capaz de transformar fundamentalmente a sociedade.

O artigo também revelou que os modelos de raciocínio desperdiçavam poder computacional ao encontrar a solução correta para problemas mais simples de maneira precoce. Conforme as questões se tornavam um pouco mais complexas, os modelos inicialmente exploravam soluções incorretas, apenas para chegar à resposta certa posteriormente. Para problemas de alta complexidade, porém, os modelos entravam em “colapso”, não conseguindo gerar nenhuma solução correta – mesmo quando apresentados a um algoritmo capaz de solucionar o problema.

Segundo o estudo, “ao se aproximar de um limiar crítico – que corresponde de perto ao ponto de colapso de precisão – os modelos, de forma contraintuitiva, passam a reduzir seu esforço de raciocínio apesar do aumento na dificuldade do problema.” Os especialistas da Apple interpretaram essa tendência como um “limitador fundamental na escalabilidade das capacidades de pensamento dos modelos atuais de raciocínio”.

Para os desafios dos LRMs, o estudo propôs quebra-cabeças clássicos, como o da Torre de Hanói e o do Travessia de Rio. Os pesquisadores reconheceram que a concentração em tais enigmas representava uma limitação na metodologia adotada.

Entre os modelos testados, estavam o o3, da OpenAI; o Gemini Thinking, do Google; o Claude 3.7 Sonnet-Thinking, da Anthropic; e o DeepSeek-R1. Enquanto Anthropic, Google e DeepSeek foram contatados para comentários, a OpenAI optou por não se manifestar.

O artigo também abordou a “capacidade de raciocínio generalizável” – a habilidade de um modelo de aplicar uma conclusão obtida em um contexto específico de forma mais ampla. Esses insights desafiam as pressuposições sobre as capacidades dos LRMs e indicam que os métodos atuais podem estar encontrando barreiras fundamentais para alcançar esse tipo de raciocínio.

Andrew Rogoyski, do Institute for People-Centred AI da Universidade de Surrey, afirmou que o estudo da Apple demonstra que a indústria ainda está “buscando seu caminho” em direção à AGI e que pode ter esbarrado em um “beco sem saída” com os métodos atualmente empregados.