O Aceleração Científica do GPT‑5 da OpenAI
O Aceleração Científica do GPT‑5 da OpenAI compila uma série de estudos de caso que mostram como pesquisadores já utilizam o modelo em pesquisas reais. Além de sua abordagem otimista, o relatório oferece um olhar interno sobre a forma como os cientistas aplicam a inteligência artificial no dia a dia e onde ainda dependem do julgamento humano.
Um relatório de progresso, não uma descoberta repentina
O pesquisador da OpenAI, Noam Brown, situou o relatório por meio de uma postagem no X, rejeitando a ideia de que a inteligência artificial generativa se resume a reproduzir uma média do que existe na internet. Segundo ele, modelos como o GPT‑5 capturam todo o espectro da escrita humana e o aprendizado por reforço pode expandir esses limites.
Brown comparou a situação com o AlphaGo, que inicialmente treinou com jogos humanos e depois usou o aprendizado por reforço para realizar jogadas que pareciam equivocadas, mas que mais tarde se mostraram revolucionárias. Ele destacou que a ciência do mundo real é muito mais complexa do que o jogo Go e, embora a IA ainda não tenha superado os principais cientistas humanos, os grandes modelos de linguagem já estão contribuindo de forma significativa para a pesquisa. Brown chegou a sugerir que a ciência poderá ter seu próprio “Move 37”, ou seja, uma descoberta que pode parecer um erro à primeira vista, mas que se revela uma nova e surpreendente percepção.
Os exemplos apresentados no relatório reforçam a ideia de que, apesar da utilidade do GPT‑5, não houve uma revolução científica. Em quase todos os casos, os humanos definiram o problema, estabeleceram a estratégia e julgaram os resultados. O GPT‑5 contribuiu com materiais como esboços de provas, experimentos numéricos e hipóteses, mas as ideias centrais seguiram sendo fruto da criatividade humana.
GPT‑5 como facilitador na busca por artigos
Uma das maiores virtudes do GPT‑5 é ajudar pesquisadores a localizar artigos relevantes, muitas vezes perdidos em meio à terminologia mutável e a décadas de publicações. Em diversos problemas propostos por Erdős, os pesquisadores Ashwin Sawhney e Mark Sellke utilizaram o modelo para redescobrir soluções anteriores enterradas em extensas pesquisas, periódicos de títulos pouco sugestivos e notas de rodapé em alemão que passaram despercebidas em revisões tradicionais.
A dinâmica era simples: uma breve descrição da tarefa seguida do pedido para identificar artigos relevantes. A compreensão semântica do GPT‑5 o torna muito mais eficiente em encontrar conexões conceituais do que as buscas por palavras-chave. Além disso, o modelo foi empregado como assistente de prova para subproblemas específicos, auxiliando matemáticos ao executar tarefas bem delimitadas, como aprimorar desigualdades, refinar argumentos de compacidade ou demonstrar lemmas mais simples.
O matemático Timothy Gowers relatou que o GPT‑5 produziu provas completas em segundos para problemas que ele já sabia serem solucionáveis, os quais, de outra forma, lhe tomariam mais de uma hora para serem resolvidos.
GPT‑5 como construtor de mecanismos, crítico e assistente de código
No campo da biologia, o GPT‑5 atua como gerador de mecanismos. Em vários estudos de imunologia, pesquisadores solicitaram que o modelo sugerisse possíveis mecanismos – por exemplo, como um composto como o 2-DG poderia causar um fenótipo determinado – e propusesse experimentos para distinguir entre explicações concorrentes. Conforme o relatório, o GPT‑5 apresentou cadeias causais plausíveis e delineou projetos experimentais interessantes.
Em outros exemplos, o GPT‑5 foi utilizado como crítico técnico. Cientistas descreveram a construção de um grafo proposto e o modelo analisou os possíveis pontos de falha na abordagem. Embora nem todos os contra-argumentos fossem válidos – corrigindo-se apenas quando desafiado – esses diálogos geraram insights úteis.
Além disso, o GPT‑5 mostrou-se valioso como assistente para criação de código e simulações. Físicos e engenheiros o empregaram para desenvolver rapidamente protótipos funcionais, como solucionadores de equações diferenciais parciais simples, rotinas de otimização e visualizações. Os humanos definiam as equações, parâmetros e critérios de sucesso, enquanto o GPT‑5 cuidava da implementação ao escrever código, gerar gráficos e testar diferentes configurações. No entanto, a depuração manual continuava sendo imprescindível, já que o modelo frequentemente produzia saídas convincentes, mas com pouco conteúdo efetivo.
Como os pesquisadores utilizam o GPT‑5
- Tarefas bem delimitadas: O GPT‑5 tem melhor desempenho em problemas claramente definidos – como aprimorar uma desigualdade conhecida, identificar simetrias em uma equação específica, analisar o espectro de um sistema de ondas gravitacionais, interpretar mapeamentos ou buscar trabalhos anteriores sobre um tópico determinado. Questões muito amplas tendem a gerar respostas plausíveis, mas errôneas.
- Construção de estruturas: Pesquisadores costumam criar uma estrutura em torno do modelo, começando por uma analogia simplificada do problema antes de apresentar o desafio real. Em um caso, o GPT‑5 falhou inicialmente em resolver uma equação relacionada a buracos negros, mas obteve sucesso ao enfrentar primeiro uma tarefa mais simples e correlata.
- Instruções detalhadas e contextualizadas: Os prompts mais eficazes se assemelham a orientações para um estudante de pós-graduação, apresentando contexto claro, perguntas específicas, metas mensuráveis e solicitações de fontes, análise de erros e experimentos complementares. Por exemplo, a imunologista Derya Unutmaz compartilhou gráficos de populações celulares e pediu ao GPT‑5 que resumisse os resultados, interpretasse respostas a dosagens, propusesse mecanismos e delineasse experimentos futuros.
- Questionamento iterativo: Quando as respostas do GPT‑5 surgiam de forma muito rápida, os pesquisadores insistiam, solicitando raciocínios mais rigorosos ou alternativas. Esse diálogo iterativo muitas vezes refinava o resultado, transformando, por exemplo, um esboço geométrico impreciso em um contraexemplo válido.
- Controle no acesso à informação: Algumas equipes desativaram a navegação na web do modelo para testar seu raciocínio interno, enquanto outras, como no estudo de Erdős, optaram por deixar o recurso ativado.
Pontos cegos remanescentes
Apesar dos exemplos impressionantes, o relatório ressalta algumas limitações recorrentes. Questões relacionadas à atribuição e à novidade permanecem sem solução. Em um dos casos, o GPT‑5 apresentou uma cota inferior para um problema de codificação que, posteriormente, foi identificada como resultado de um trabalho publicado três anos antes. O modelo parece ter reconstruído a prova internamente, mas só citou sua fonte quando instado a fazê-lo, o que pode levar a atribuições equivocadas se tais saídas forem consideradas descobertas inéditas.
Além disso, o GPT‑5 tende a exagerar soluções parciais, apresentando-as como quase completas. Várias provas desmoronaram após uma análise detalhada, seja por falta de distinções entre casos, erros no manuseio de limites ou citações incorretas de teoremas. Muitas respostas corretas só emergiram após questionamentos reiterados dos pesquisadores.
O viés entre as disciplinas também ficou evidente. A maioria dos exemplos surgiu em campos com linguagens formais e longas histórias de publicação – como matemática, física teórica e pesquisas algorítmicas. As ciências empíricas, nas quais os dados são incertos e frequentemente contraditórios, aparecem principalmente em alguns dos poucos casos apresentados na imunologia.
Além do GPT‑5 Pro
O relatório ainda insinua para onde a tecnologia pode estar caminhando. A OpenAI menciona modelos internos capazes de raciocinar por várias horas. Em um teste, um desses sistemas atingiu a solução ideal, enquanto o GPT‑5 Pro, limitado a cerca de 20 minutos de processamento, conseguiu apenas um resultado quase ideal, necessitando de contribuições adicionais.
Esses modelos de execução prolongada supostamente conseguiram derivar, totalmente do zero, uma cota precisa em otimização convexa, sem receber a fundamentação teórica que foi dada ao GPT‑5 Pro. Embora o relatório não forneça detalhes técnicos ou um roteiro futuro, ele conclui que um aumento constante na capacidade de processamento durante os testes melhora os resultados.
No contexto da analogia de Brown com o AlphaGo, isso sugere que a OpenAI já está experimentando sistemas muito mais poderosos e que raciocinam por períodos mais longos do que o GPT‑5 Pro atualmente disponível. Resta saber se esses modelos internos algum dia proporcionarão um “Move 37” para a ciência.
