Novos modelos de raciocínio de IA da OpenAI alucinam mais

Os modelos de IA o3 e o4-mini lançados recentemente pela OpenAI são de última geração em muitos aspectos. No entanto, os novos modelos ainda alucinam, ou seja, fabricam informações — na verdade, alucinam mais do que vários dos modelos mais antigos da OpenAI.

As alucinações se mostraram um dos maiores e mais difíceis problemas a serem resolvidos na IA, impactando até os sistemas de melhor desempenho atualmente. Historicamente, cada novo modelo apresentava uma ligeira melhoria nesse quesito, fabricando menos informações do que seu antecessor. Mas esse não parece ser o caso dos modelos o3 e o4-mini.

De acordo com testes internos da OpenAI, os modelos o3 e o4-mini — conhecidos como modelos de raciocínio — alucinam com mais frequência do que os modelos anteriores de raciocínio da empresa (como o1, o1-mini e o3-mini), bem como os modelos tradicionais “não-raciocínio”, como o GPT-4o. Talvez mais preocupante, o criador do ChatGPT ainda não saiba exatamente por que isso está acontecendo.

No relatório técnico dos modelos o3 e o4-mini, a OpenAI afirma que “mais pesquisas são necessárias” para entender por que as alucinações estão piorando à medida que se amplia a escala dos modelos de raciocínio. Os modelos o3 e o4-mini apresentam desempenho superior em algumas áreas, inclusive em tarefas relacionadas à programação e à matemática. Mas, por fazerem mais afirmações no geral, eles também acabam por produzir “mais afirmações precisas, assim como mais afirmações imprecisas/alucinadas”, conforme descrito no relatório.

A OpenAI constatou que o modelo o3 alucinava em resposta a 33% das perguntas no PersonQA, o benchmark interno da empresa para medir a precisão do conhecimento sobre pessoas. Essa taxa é aproximadamente o dobro daquela observada em modelos anteriores de raciocínio, como o1 e o3-mini, que registraram 16% e 14,8%, respectivamente. O modelo o4-mini apresentou pior desempenho no PersonQA, alucinando em 48% das vezes.

Testes realizados por organizações terceirizadas, conduzidos pelo laboratório de pesquisa em IA sem fins lucrativos Transluce, também encontraram evidências de que o modelo o3 tende a inventar ações que realizou durante o processo de formulação das respostas. Em um exemplo, o Transluce observou o modelo afirmando ter executado um código em um MacBook Pro de 2021 “fora do ChatGPT” e, em seguida, copiando os números para sua resposta, apesar de não ter a capacidade de fazê-lo.

Neil Chowdhury, pesquisador do Transluce e ex-funcionário da OpenAI, explicou que “nossa hipótese é que o tipo de aprendizado por reforço utilizado para os modelos da série o pode amplificar problemas que normalmente são mitigados (mas não totalmente eliminados) pelos pipelines padrão de pós-treinamento”. Sarah Schwettmann, cofundadora do Transluce, acrescentou que a elevada taxa de alucinação do modelo o3 pode torná-lo menos útil do que seria de outra forma.

Kian Katanforoosh, professor adjunto em Stanford e CEO da startup Workera, especializada em qualificação profissional, revelou que sua equipe já está testando o modelo o3 em fluxos de trabalho de programação, constata que ele supera a concorrência e, ao mesmo tempo, tende a alucinar links para websites quebrados – ou seja, fornece links que, quando clicados, não funcionam corretamente.

Embora as alucinações possam estimular a criatividade e levar os modelos a descobrirem ideias interessantes, elas tornam esses sistemas menos atrativos para mercados em que a precisão é essencial. Por exemplo, escritórios de advocacia dificilmente aceitariam um modelo que insere diversos erros factuais em contratos com clientes.

Uma abordagem promissora para aumentar a precisão dos modelos é dotá-los de capacidades de busca na web. O GPT-4o com busca na web atinge 90% de precisão no SimpleQA, o que sugere que a pesquisa online pode ajudar a melhorar as taxas de alucinação dos modelos de raciocínio – pelo menos em contextos onde os usuários estão dispostos a expor seus comandos a um provedor terceirizado de busca.

Se a ampliação dos modelos de raciocínio continuar a agravar as alucinações, a busca por uma solução se tornará ainda mais urgente. A OpenAI ressaltou que “solucionar as alucinações em todos os nossos modelos é uma área de pesquisa contínua, e estamos constantemente trabalhando para melhorar sua precisão e confiabilidade”.