Um estudo recente do Instituto de Tecnologia de Massachusetts examina como grandes modelos de linguagem (LLMs) respondem a perturbações sistemáticas no design de prompts ao resolver problemas matemáticos em forma de texto. As descobertas indicam que até mesmo adições menores de contexto irrelevante podem degradar significativamente o desempenho.
Os pesquisadores testaram 13 LLMs de código aberto e fechado — incluindo Mixtral, Mistral, Llama e Command-R — utilizando questões do conjunto de dados GSM8K, que se concentra em problemas aritméticos do ensino fundamental. Foram introduzidos quatro tipos de perturbações no prompt:
- Contexto irrelevante: trechos, como entradas da Wikipedia ou relatórios financeiros, ocupando até 90% da janela de entrada;
- Instruções incomuns: por exemplo, “Adicione uma cor na frente de cada adjetivo”;
- Contexto adicional, mas não essencial: informações topicamente relacionadas, porém desnecessárias para solucionar o problema;
- Combinação de contexto relevante e instruções enganosas.
A queda de desempenho mais significativa foi observada quando havia contexto irrelevante, resultando em uma redução média de 55,89% nos problemas resolvidos corretamente. Instruções incomuns levaram a uma queda de 8,52%, enquanto o contexto relevante não essencial provocou um declínio de 7,01%. Quando os dois tipos de interferência foram combinados, o desempenho caiu 12,91%.
Modelos maiores não mostram imunidade
Ao contrário do que muitos poderiam esperar, o tamanho do modelo não protege contra esses problemas. Mixtral, o maior modelo testado com 39 bilhões de parâmetros ativos, demonstrou a pior degradação de desempenho. Modelos de médio porte, como Mistral-7B e Llama-3.2-3B, apresentaram resultados um pouco melhores, embora o Llama-3.1-8B tenha falhado completamente ao ser exposto a contexto irrelevante. Até mesmo o GPT-4o da OpenAI não foi imune, perdendo até 62,5% de sua acurácia quando confrontado com informações contextuais irrelevantes.
O desempenho dos LLMs cai acentuadamente quando os prompts são perturbados. O contexto irrelevante gera as maiores perdas.
A robustez no mundo real continua sendo um desafio em aberto
O estudo demonstra como os LLMs atuais são suscetíveis a distúrbios realistas, que ocorrem frequentemente em aplicações práticas — seja por introduções editoriais, informações de fundo extras ou referências contraditórias. A equipe de pesquisa defende o desenvolvimento de novos métodos de treinamento e arquiteturas especificamente projetados para lidar com contextos desordenados do mundo real. Além disso, ressaltam a necessidade de benchmarks de teste que reflitam de forma mais fiel as condições reais de uso, em contraste com os formatos cuidadosamente limpos empregados na maioria das avaliações.
Implicações para o design de prompts
Os resultados do estudo demonstram que, quando informações irrelevantes são inseridas nos prompts, o desempenho do modelo cai de forma dramática. Por isso, os prompts devem ser claros, concisos e limitar-se às informações essenciais. Mesmo que detalhes adicionais sejam corretos, eles podem induzir o erro ou criar confusão. A estratégia ideal é focar apenas nos dados que contribuem diretamente para a solução da tarefa.
Antes de interagir com um LLM, é importante pré-processar os dados de entrada para incluir apenas informações relevantes. Sessões de chat prolongadas podem acumular contexto que interfere no desempenho; dividir tarefas complexas em conversas separadas, cada uma com seu prompt focado, é uma abordagem mais eficaz.
A pesquisa destaca a dificuldade dos LLMs em distinguir entre informações relevantes e irrelevantes. Para superar essa limitação, os designers de prompts devem estabelecer separações claras entre o contexto e a tarefa propriamente dita, utilizando técnicas como formatação precisa e cabeçalhos descritivos. Isso ajuda o modelo a identificar de imediato quais informações são essenciais para solucionar o problema.
No entanto, o estudo também sugere que mesmo os prompts cuidadosamente elaborados não são uma solução completa. Embora a melhoria no design dos prompts possa aperfeiçoar os resultados, os desafios fundamentais de confiabilidade desses modelos permanecem quando expostos a diferentes tipos de interferência contextual.