Novo benchmark mostra que LLMs ainda não conseguem conduzir pesquisas científicas de verdade
Os pesquisadores apontam que essa lacuna de desempenho se deve a uma desconexão fundamental entre questões descontextualizadas e a descoberta científica real. Pesquisas de verdade exigem compreensão contextual baseada em problemas, geração iterativa de hipóteses e interpretação de evidências incompletas – habilidades que os benchmarks padrão não medem.
Benchmarks atuais testam as habilidades erradas
De acordo com os pesquisadores, o problema está na forma como benchmarks científicos existentes – como GPQA, MMMU ou ScienceQA – foram concebidos. Esses testes avaliam conhecimentos factuais isolados, fracamente conectados às áreas de pesquisa específicas. Entretanto, a descoberta científica funciona de maneira distinta, exigindo pensamento iterativo, formulação e refinamento de hipóteses e interpretação de observações incompletas.
Para superar essa lacuna, a equipe desenvolveu o benchmark SDE, com 1.125 questões distribuídas em 43 cenários de pesquisa em quatro domínios: biologia, química, ciência dos materiais e física. A principal diferença em relação aos testes já existentes é que cada pergunta está ligada a um cenário de pesquisa específico oriundo de projetos reais. Equipes de especialistas definiram cenários realistas a partir de seus próprios trabalhos e, em seguida, elaboraram perguntas, posteriormente revisadas por colegas.

Da simples avaliação de conhecimento à simulação de pesquisa: os benchmarks convencionais apenas associam vagamente as questões a áreas do conhecimento e, às vezes, incluem tarefas incorretas ou irrelevantes. Já o framework SDE vincula cada questão de forma estreita a cenários e projetos específicos, avaliando tanto o nível da questão quanto o do projeto, com os LLMs percorrendo todo o ciclo de descoberta.
Os cenários abordam desde a previsão de reações químicas e a elucidação de estruturas por meio de espectros de RMN até a identificação de genes causais em estudos de associação genômica, refletindo as necessidades reais dos cientistas em suas pesquisas.
O desempenho varia consideravelmente entre os cenários
Os resultados indicam uma queda geral de desempenho, em comparação com os benchmarks convencionais, além de uma variação extrema entre diferentes cenários de pesquisa. Por exemplo, o GPT-5 alcança 0,85 no planejamento de retrossíntese, mas apenas 0,23 na elucidação estrutural baseada em RMN. Essa variação é observada entre todos os modelos testados.
Para os pesquisadores, isso evidencia que benchmarks que categorizam as questões apenas por área do conhecimento não são suficientes, já que a descoberta científica frequentemente falha justamente no elo mais fraco da cadeia. O benchmark SDE foi elaborado para destacar os pontos fortes e as deficiências dos modelos de linguagem em cenários específicos de pesquisa.
Escalonamento e raciocínio atingem retornos decrescentes
O estudo também investigou se estratégias conhecidas para incrementar o desempenho – como o uso de modelos maiores e maior tempo de processamento para raciocínio – beneficiam a descoberta científica. A resposta, no entanto, é mista.
O raciocínio de fato melhora o desempenho geral: por exemplo, o Deepseek-R1 supera o Deepseek-V3.1 na maioria dos cenários, mesmo que ambos compartilhem o mesmo modelo base. Ao avaliar a regra dos cinco de Lipinski – uma diretriz para prever a biodisponibilidade oral de medicamentos – o raciocínio elevou a precisão de 0,65 para 1,00.
Contudo, os pesquisadores também observaram retornos decrescentes. No GPT-5, aumentar o esforço de raciocínio de “médio” para “alto” praticamente não faz diferença. Ademais, a evolução do modelo o3 para o GPT-5 demonstra apenas um progresso marginal, com o GPT-5 apresentando desempenho inferior em oito cenários.

Os melhores modelos falham da mesma forma
Outra descoberta importante é que os principais modelos de diferentes fornecedores – GPT-5, Grok-4, Deepseek-R1 e Claude-Sonnet-4.5 – apresentam perfis de erro altamente correlacionados. Em áreas como química e física, os coeficientes de correlação entre todos os pares de modelos ultrapassam 0,8, indicando que frequentemente eles convergem para as mesmas respostas erradas, sobretudo nas questões mais desafiadoras.
Os pesquisadores interpretam isso como evidência de que os modelos foram treinados com dados e objetivos de otimização semelhantes, e não por diferenças em suas arquiteturas. Na prática, estratégias de conjunto (ensemble) – como a votação majoritária entre modelos diferentes – provavelmente não serão eficazes para resolver as questões mais difíceis.

Para isolar essas fraquezas, a equipe criou um subconjunto denominado SDE-hard, composto por 86 questões particularmente difíceis. Em todos os modelos padrão, a precisão ficou abaixo de 0,12; somente o GPT-5-pro, que possui um custo doze vezes maior, alcançou 0,224, respondendo corretamente a nove questões em que os demais falharam.
Testes no nível de projeto revelam mais lacunas
Além da avaliação por questão, o framework SDE também mede o desempenho no nível de projetos, onde os modelos percorrem um ciclo real de descoberta científica: formular hipóteses, conduzir experimentos e interpretar os resultados para refiná-las.
Foram analisados oito projetos, que vão desde o design de proteínas e edição gênica até retrossíntese, otimização molecular e regressão simbólica. A constatação principal é que nenhum modelo se sobressai em todas as tarefas, havendo variações na liderança conforme o desafio apresentado.

Surpreendentemente, um desempenho robusto em questões individuais não se traduz automaticamente em bons resultados em projetos. No caso da otimização de complexos de metais de transição, por exemplo, o GPT-5, o Deepseek-R1 e o Claude-Sonnet-4.5 conseguem identificar soluções ideais dentre milhões de possibilidades, mesmo quando apresentam desempenho medíocre em questões teóricas. Por outro lado, apesar de boas pontuações em conhecimento, alguns modelos falham no planejamento de retrossíntese, pois os caminhos de síntese propostos não se mostram viáveis.
Os pesquisadores concluem que o essencial não é apenas possuir um conhecimento especializado, mas sim ter a capacidade de explorar sistematicamente grandes espaços de soluções e identificar abordagens promissoras, mesmo aquelas não previamente previstas.
LLMs estão longe da superinteligência científica, mas ainda são úteis
A conclusão do estudo é clara: nenhum modelo de linguagem atual se aproxima da tão almejada “superinteligência” científica. No entanto, isso não significa que esses modelos sejam inúteis. Os LLMs já apresentam bom desempenho em projetos específicos, principalmente quando combinados com ferramentas especializadas e a orientação de especialistas. Eles têm a capacidade de planejar e executar experimentos, analisar vastos espaços de busca e apresentar candidatos promissores que, de outra forma, poderiam passar despercebidos.
Para reduzir a lacuna entre o desempenho atual e a excelência em pesquisa, os pesquisadores recomendam uma mudança de foco – de simplesmente aumentar o tamanho dos modelos para investir em treinamentos direcionados à formulação de problemas e à geração de hipóteses. Além disso, sugerem a diversificação dos dados de pré-treinamento para diminuir os perfis de erro compartilhados, a integração do uso de ferramentas durante o treinamento e o desenvolvimento de estratégias de aprendizado por reforço voltadas especificamente para o raciocínio científico. As otimizações que têm impulsionado avanços em codificação e matemática não parecem se transferir automaticamente para a descoberta científica.
O framework e os dados dos benchmarks servirão como recursos para impulsionar o desenvolvimento dos modelos de linguagem no contexto da descoberta científica. Embora o estudo abranja, por ora, apenas quatro domínios – com áreas como geociências, ciências sociais e engenharia ainda por serem incluídas –, a arquitetura modular do framework permite futuras expansões. A equipe disponibilizou publicamente o código e os scripts de avaliação, assim como os conjuntos de dados referentes aos projetos.
Recentemente, a OpenAI lançou seu próprio benchmark, denominado FrontierScience, concebido para medir o desempenho da IA em cenários científicos que vão além dos simples testes de perguntas e respostas. O resultado foi semelhante: conhecimento de quiz não equivale a expertise em pesquisa.
