Pesquisadores da Apple publicam estudo crítico que abala a indústria de IA

Pesquisadores da Apple publicaram um estudo surpreendente que põe em xeque a capacidade de “raciocínio” dos modelos de linguagem mais avançados atualmente disponíveis.

Imagem relacionada ao estudo da Apple

No artigo, uma equipe de especialistas em aprendizado de máquina argumenta que a indústria de inteligência artificial tem exagerado, de forma grosseira, as habilidades dos seus modelos de ponta, citando exemplos como o modelo da OpenAI, o Claude 3.7 da Anthropic e o Gemini do Google.

Os pesquisadores questionam a ideia de que esses sistemas seriam capazes de “raciocinar” ao decompor os comandos do usuário em partes e utilizar uma sequência de etapas – a chamada “cadeia de pensamento” – para chegar às respostas. Segundo o estudo, essa aparência de raciocínio seria, na verdade, uma mera ilusão de pensar.

De acordo com o artigo, embora os modelos apresentem desempenho melhorado em testes de raciocínio, suas capacidades fundamentais, propriedades de escalabilidade e limitações ainda não estão completamente esclarecidas. Os autores apontam que os métodos atuais de avaliação sofrem com a contaminação dos dados e não conseguem revelar a qualidade e a estrutura dos traços de raciocínio.

Utilizando ambientes controlados, semelhantes a quebra-cabeças, a equipe mensurou a habilidade desses modelos e descobriu que, quando confrontados com problemas de complexidade acima de um determinado limite, ocorre um colapso total na precisão dos modelos. Esse fenômeno, descrito como “excesso de pensamento”, indica que mesmo com treinamento adequado, os sistemas falham em resolver desafios que ultrapassam um certo patamar de complexidade.

O estudo também evidencia que, apesar dos avanços, esses modelos enfrentam dificuldades em cálculos exatos, não aplicam algoritmos de forma explícita e apresentam raciocínio inconsistente em diferentes contextos. Tais limitações lançam dúvidas sobre a capacidade real de raciocínio dos sistemas e chamam atenção para barreiras fundamentais que podem estar impedindo um avanço verdadeiramente generalizável na área.

Enquanto bilhões de dólares são investidos no desenvolvimento de novas tecnologias de IA – com gigantes da área construindo centros de dados cada vez mais robustos – essas descobertas podem representar um alerta: os grandes modelos de raciocínio podem ter atingido um teto em termos de desempenho.

Em meio a críticas de que estaria ficando para trás na corrida pela inteligência artificial, a Apple tem trilhado um caminho cauteloso na integração dessa tecnologia em produtos como o iPhone e o MacBook, mesmo quando seus próprios pesquisadores questionam as atuais trajetórias adotadas pela indústria.

Essa análise coloca em discussão as suposições amplamente difundidas sobre as capacidades dos modelos de linguagem e ressalta a necessidade de repensar os métodos de avaliação, enfatizando que a verdadeira potência do raciocínio em IA ainda pode estar além do alcance das abordagens atuais.