Atualização em 20 de julho de 2025:

O pesquisador da OpenAI, Jerry Tworek, confirmou no X que o modelo abaixo recebeu “muito pouco trabalho específico para a IMO” — apenas treinamento contínuo dos modelos base de uso geral. Todas as soluções se basearam em argumentos em linguagem natural, sem nenhum framework especial de avaliação.

Tworek classificou essa conquista como um verdadeiro avanço na pesquisa, entregue pela equipe de Alexander Wei. Ele acrescentou que uma liberação pública do modelo é possível até o final do ano.

Tworek também observou que todos os grandes anúncios da OpenAI nesta semana — o sistema de agente de IA geral, a derrota apertada para um humano em um concurso de programação heurística e a resolução de 5 dos 6 problemas da IMO — vieram do mesmo sistema de aprendizado por reforço. Segundo ele, o agente do ChatGPT utiliza uma versão anterior, construída com um modelo base mais antigo.

OpenAI resolve problemas da Olimpíada Internacional de Matemática com nível de medalha de ouro

A OpenAI afirmou que seu modelo experimental de linguagem resolveu problemas da Olimpíada Internacional de Matemática (IMO) com desempenho digno de uma medalha de ouro — um possível avanço para a IA com habilidades de raciocínio geral. Os resultados ainda não foram confirmados de forma independente.

De acordo com os pesquisadores Alexander Wei e Noam Brown, o modelo enfrentou a competição IMO 2025, solucionando os cinco primeiros dos seis problemas oficiais e obtendo 35 dos 42 pontos possíveis.

A IMO é considerada a competição de matemática mais difícil para estudantes do ensino médio, exigindo criatividade e rigoroso raciocínio lógico. Wei afirma que este é o primeiro modelo de IA capaz de “elaborar argumentos complexos e à prova de falhas no nível dos matemáticos humanos”.

O modelo gerou suas soluções sob condições padrão de competição: duas sessões de 4,5 horas, sem ajuda externa, todas as respostas escritas em linguagem natural e sem o uso de ferramentas. Medalhistas anteriores da IMO avaliaram as respostas de forma anônima. As soluções completas estão disponíveis no GitHub.

Potencial de escalabilidade

Diferentemente do AlphaGeometry da DeepMind, desenvolvido especificamente para matemática, o modelo da OpenAI é um modelo de raciocínio de uso geral. “Alcançamos esse nível de capacidade não por meio de metodologias estreitas e específicas para tarefas, mas abrindo novos caminhos no aprendizado por reforço de uso geral e escalando o poder computacional em tempo de teste”, explica Wei.

Brown confirma que o modelo se baseia em “novas técnicas experimentais de uso geral” e aumenta seu processamento computacional durante o tempo de teste, ainda que não divulgue os detalhes técnicos.

“Enquanto alguns modelos geram uma ideia em segundos e outros pesquisam profundamente por alguns minutos, este pensa por horas”, afirma Brown, destacando que o novo modelo é mais eficiente e ainda possui potencial de escalabilidade. Ele argumenta que mesmo uma pequena vantagem em relação ao desempenho humano pode impulsionar grandes avanços científicos.

Wei salienta que a OpenAI não planeja lançar esse modelo ou um similar nos próximos meses, enfatizando que se trata estritamente de um projeto de pesquisa. Ele também esclareceu que, embora o GPT-5 esteja previsto para breve, ele não está relacionado ao modelo da IMO, desenvolvido por uma pequena equipe liderada por Wei.

Brown aponta que a tecnologia pode, eventualmente, se transformar em um produto e que, com o rápido progresso, versões futuras podem ser ainda mais avançadas. Ele acrescenta que os resultados surpreenderam até mesmo os especialistas da própria OpenAI, chamando o avanço de “um marco que muitos consideravam distante por anos”.

Os modelos atuais ainda estão muito atrás

A escolha do momento do anúncio da OpenAI pareceu intencional, ocorrendo logo após os atuais modelos de IA terem apresentado resultados decepcionantes na mesma competição.

Uma avaliação recente da plataforma MathArena.ai testou diversos modelos líderes — incluindo Gemini 2.5 Pro, Grok-4, DeepSeek-R1 e até os modelos o3 e o4-mini da própria OpenAI — nas tarefas da IMO 2025. Nenhum deles conseguiu atingir os 19 pontos necessários para uma medalha de bronze. O Gemini 2.5 Pro teve o melhor desempenho, mas com apenas 13 dos 42 pontos, enquanto os demais apresentaram resultados ainda piores.

Mesmo após extensos testes, que incluíram um processo de seleção do melhor entre 32 tentativas e avaliações realizadas por especialistas da IMO, os modelos apresentaram sérias falhas. Os resultados estavam repletos de erros lógicos, argumentos incompletos e até teoremas inventados.

Dentro desse contexto, o anúncio da OpenAI surge como uma resposta direta às limitações evidenciadas pelo teste da MathArena.ai. Embora a conquista seja significativa, seu verdadeiro valor dependerá da capacidade de reproduzir os resultados de forma independente e de aplicá-los a problemas científicos reais.