Os LLMs ainda não se equiparam aos pesquisadores humanos na replicação de artigos científicos
O novo benchmark PaperBench da OpenAI revela as limitações atuais da capacidade da IA de replicar pesquisas científicas de forma independente, destacando que pesquisadores humanos ainda mantêm vantagem nesse aspecto.
O teste rigoroso submete os sistemas de IA ao desafio de replicar 20 artigos apresentados na ICML 2024, uma das conferências mais prestigiadas de machine learning. Os artigos abrangem um amplo espectro de pesquisas, desde deep reinforcement learning até métodos probabilísticos e testes de robustez.
Para mensurar o desempenho com precisão, a equipe trabalhou diretamente com os autores originais, criando um extenso quadro de avaliação composto por mais de 8.300 pontos de verificação específicos que determinam se um sistema reproduziu corretamente a pesquisa.
Embora os sistemas de IA possam buscar informações gerais na internet, eles não têm acesso ao código original dos autores. Por isso, precisam desenvolver seu próprio código completo e elaborar um script “reproduce.sh” que execute automaticamente todos os experimentos. Cada sistema dispõe de doze horas para concluir a tarefa sob condições padrão de teste.
Após receberem os artigos e os critérios de avaliação detalhados, os agentes de IA devem escrever o código para replicar os resultados originais, sendo que um avaliador automatizado confere se a submissão cumpre todos os requisitos. Esse método minimiza, de forma significativa, o tempo e os custos em comparação à avaliação manual, onde especialistas humanos podem gastar dezenas de horas avaliando um único artigo.
O modelo o3-mini atingiu uma precisão de 83% ao tender a fazer julgamentos que se assemelham aos dos humanos, reduzindo os custos de avaliação de milhares de dólares por artigo para apenas US$ 66. Já o mais poderoso modelo o1 obteve uma precisão um pouco superior, de 84%, porém com um custo de US$ 830 por artigo.
Os humanos são mais lentos, mas mais minuciosos na replicação de pesquisas
Mesmo os modelos de IA com melhor desempenho enfrentam dificuldades para replicar pesquisas publicadas de maneira eficaz. O Claude 3.5 Sonnet, da Anthropic, lidera com uma taxa de sucesso de 21% na replicação dos resultados dos artigos. Outros sistemas apresentaram desempenhos notavelmente inferiores: o GPT-4o alcançou apenas 4,1%, o DeepSeek-R1 6% e o Gemini 2.0 Flash, do Google, atingiu somente 3,2% de sucesso.
Curiosamente, as habilidades básicas de raciocínio não parecem melhorar a taxa de sucesso na replicação. Por exemplo, o Claude 3.5 Sonnet lidera mesmo sem recursos especializados de raciocínio, e a versão mais recente, 3.7, não foi incluída nos testes.
A OpenAI criou uma versão aprimorada do seu framework de agentes, denominada IterativeAgent, para maximizar o desempenho dos modelos. Esse framework obriga os sistemas de IA a utilizarem a totalidade do tempo disponível e a abordarem as tarefas de forma incremental. Com essa abordagem, o modelo o1 aumentou sua taxa de sucesso de 13,2% para 24,4%, enquanto o o3-mini melhorou de 2,6% para 8,5%.
No entanto, nem todos os modelos se beneficiaram dessa estratégia. O desempenho do Claude 3.5 Sonnet caiu de 21% para 16,1% com o novo framework. Além disso, ao estender o limite de tempo de 12 para 36 horas, o modelo o1 alcançou seu melhor desempenho, de 26%. Esses resultados ressaltam a sensibilidade dos modelos de IA a diferentes estratégias de prompting e limites temporais, mesmo que tempos de processamento mais longos elevem os custos computacionais.
Com o uso da abordagem IterativeAgent, os modelos de raciocínio da OpenAI superaram o desempenho do Claude 3.5 Sonnet, mostrando como a configuração do sistema pode influenciar os resultados obtidos.
Abordagens Diferentes, Resultados Diferentes
Para estabelecer uma linha de base humana, a OpenAI recrutou oito doutorandos de ciência da computação de universidades renomadas, como Berkeley, Cambridge e Cornell. Após 48 horas de trabalho, esses pesquisadores alcançaram uma taxa de sucesso de 41,4%, superando significativamente todos os sistemas de IA testados.
O estudo revelou diferenças fundamentais na forma como humanos e sistemas de IA abordam tarefas complexas de pesquisa. Enquanto a IA gera código rapidamente na primeira hora, ela rapidamente atinge um platô e enfrenta dificuldades com planejamento estratégico e aprimoramentos. Em contraste, os pesquisadores humanos demoram mais para assimilar o conteúdo dos artigos inicialmente, mas demonstram progresso consistente ao longo do tempo.
A pesquisa também expôs uma fraqueza crítica dos sistemas de IA atuais: a maioria encerra o trabalho prematuramente, seja por acreditar erroneamente que já concluíram a tarefa ou por concluir que enfrentaram desafios insolúveis. Entre todos os sistemas testados, apenas o Claude 3.5 Sonnet utilizou de forma consistente toda a alocação de tempo disponível.
Em conclusão, o benchmark PaperBench foi criado para acompanhar a crescente capacidade dos sistemas de IA em realizar pesquisas de forma independente, servindo como uma ferramenta essencial para monitorar a segurança da IA à medida que suas capacidades evoluem. Para ampliar o acesso ao teste, a OpenAI também disponibilizou o PaperBench Code-Dev, uma versão simplificada que se concentra exclusivamente no desenvolvimento de código sem a execução dos experimentos, reduzindo os custos de avaliação em 85% e oferecendo insights valiosos sobre as capacidades da IA.