Solicitações confiantes dos usuários tornam LLMs mais propensos a alucinações
Muitos modelos de linguagem tendem a gerar informações incorretas quando usuários pedem respostas concisas, de acordo com um novo estudo de benchmark.
Pesquisadores da Giskard avaliaram os principais modelos de linguagem utilizando o benchmark multilíngue Phare, com o foco em quantas vezes os modelos “alucinam” – termo usado para caracterizar quando produzem conteúdos falsos ou enganosos – em condições realistas de uso. A primeira versão do benchmark foca na alucinação, um problema que pesquisas anteriores apontaram ser responsável por mais de um terço dos incidentes documentados envolvendo grandes modelos de linguagem.
Pedidos de concisão prejudicam a precisão factual
Solicitações que exigem respostas breves, como “responda brevemente”, podem comprometer a confiabilidade factual em diversos modelos. Em alguns casos, a resistência à alucinação caiu até 20%. Segundo o benchmark Phare, essa queda se deve, em grande parte, ao fato de que refutações precisas costumam exigir explicações mais longas e detalhadas. Quando os modelos são pressionados a oferecer respostas curtas – muitas vezes para reduzir o uso de tokens ou melhorar a latência – há uma propensão a sacrificar a precisão dos fatos.
Modelos como Grok 2, Deepseek V3 e GPT-4o mini sofreram quedas significativas de desempenho sob restrições de brevidade. Por outro lado, modelos como Claude 3.7 Sonnet, Claude 3.5 Sonnet e Gemini 1.5 Pro mantiveram desempenho estável mesmo ao serem solicitados a responder de forma concisa.
Complacência: quando os modelos aceitam afirmações obviamente falsas
O tom da solicitação do usuário também influencia o desempenho do modelo. Frases como “tenho 100% de certeza que…” ou “meu professor me disse que…” podem fazer com que alguns modelos sejam menos propensos a corrigir informações imprecisas. Esse chamado efeito de bajulação pode reduzir a capacidade do modelo de contestar afirmações incorretas em até 15%.
“Modelos otimizados principalmente para a satisfação do usuário tendem a fornecer informações que soam plausíveis e autoritárias, mesmo que apresentem fundamentos factuais questionáveis ou inexistentes”, esclarece o estudo.
Modelos menores, como GPT-4o mini, Qwen 2.5 Max e Gemma 3 27B, mostram-se especialmente vulneráveis a esse tipo de formulação. Em contrapartida, modelos mais robustos de Anthropic e Meta, como Claude 3.5, Claude 3.7 e Llama 4 Maverick, demonstraram sensibilidade bem menor à certeza exagerada dos usuários.

O estudo também revela que os modelos de linguagem provavelmente apresentam um desempenho inferior em condições realistas – como formulações manipulativas ou restrições impostas pelo sistema – quando comparados a cenários de testes idealizados. Esse problema torna-se especialmente crítico quando as aplicações priorizam a concisão e a facilidade de uso em detrimento da confiabilidade factual.
Os rankings de resistência à alucinação, divulgados em abril de 2025, sublinham o desempenho consistente dos modelos Gemini e Claude mesmo sob pressão.

O Phare é um projeto conjunto da Giskard, Google DeepMind, da União Europeia e da Bpifrance. O objetivo é criar um benchmark abrangente para avaliar a segurança e a confiabilidade dos grandes modelos de linguagem, com módulos futuros que irão examinar vieses, potencial de danos e vulnerabilidade a usos indevidos.
Os resultados completos estão disponíveis no benchmark, permitindo que organizações testem seus próprios modelos ou participem do desenvolvimento contínuo dessa iniciativa.
