GPT-5.2 chega para superar o Gemini 3 do Google no jogo dos benchmarks de IA apenas quatro semanas após o GPT-5.1
Apenas quatro semanas após lançar o GPT-5.1, a OpenAI retorna com o GPT-5.2 e melhorias substanciais em benchmarks. Seja de forma irônica ou sincera, o CEO da OpenAI, Sam Altman, comentou sobre o lançamento com a simples observação de que “chegamos longe desde o GPT-5.1.”
Segundo a OpenAI, o GPT-5.2 é “a série de modelos mais capaz até agora para trabalhos de conhecimento profissional”. A empresa está disponibilizando três variantes: GPT-5.2 Instant para tarefas rápidas do cotidiano, GPT-5.2 Thinking para trabalhos mais complexos e GPT-5.2 Pro como opção premium para consultas particularmente exigentes.
O novo modelo equipara-se ao Gemini 3 Pro do Google em muitos benchmarks e supera-o claramente em outros – especialmente no teste de codificação SWE-Verified e no benchmark de raciocínio abstrato ARC-AGI-2. O desempenho expressivo do Gemini parece ter acelerado a resposta da OpenAI.
Primeiro modelo a alcançar desempenho de especialista em trabalho de conhecimento
No benchmark GDPval, que avalia tarefas de conhecimento em 44 áreas profissionais e mensura a relevância econômica dos modelos de IA, o GPT-5.2 Thinking atingiu 70,9% segundo a OpenAI – um salto expressivo em relação aos 38,8% do GPT-5 Thinking. Esse avanço, de mais de 80% em apenas um mês, faz do GPT-5.2 o primeiro modelo a operar no nível de um especialista humano em tarefas bem definidas.
A OpenAI destaca ganhos de eficiência, afirmando que o GPT-5.2 entrega resultados a mais de onze vezes a velocidade e a menos de 1% do custo dos especialistas da indústria. Em um benchmark interno para tarefas de investment banking, como modelagem financeira, as pontuações médias passaram de 59,1% para 68,4%.
Além disso, o GPT-5.2 Thinking registra novos recordes internos em codificação. No teste SWE-Bench Pro, que avalia tarefas realistas de programação em quatro linguagens, o modelo atingiu 55,6%, comparado aos 50,8% do GPT-5.1 Thinking. No SWE-Bench Verified, a pontuação subiu de 76,3% para 80%.
Menos alucinações e melhor compreensão de contexto longo
A OpenAI afirma ter reduzido em 30% a taxa de erros nas respostas. Em um teste com requisições anonimadas do ChatGPT, a proporção de respostas com pelo menos um erro caiu de 8,8% (GPT-5.1 Thinking) para 6,2% (GPT-5.2 Thinking). Embora os testes tenham sido realizados com configurações máximas de raciocínio e com pesquisa ativada – e os resultados verificados por outros modelos de IA – a empresa ressalta que o GPT-5.2 Thinking ainda não é perfeito, recomendando a verificação de suas saídas.
No que diz respeito ao processamento de textos extensos, o GPT-5.2 Thinking é o primeiro modelo a atingir quase 100% de acerto no teste 4-Needle MRCR com até 256.000 tokens. Esse benchmark exige que o modelo encontre e cite detalhes ocultos em vastos blocos de texto, auxiliando em tarefas intensivas de documentação, como análise de contratos, artigos de pesquisa ou transcrições.
A análise de imagens também apresentou avanços, com a redução pela metade das taxas de erro. Em testes de raciocínio sobre diagramas científicos, a pontuação no benchmark CharXiv saltou de 80,3% para 88,7%. Já em testes de entendimento de interface (ScreenSpot-Pro), o desempenho melhorou de 64,2% para 86,3%.
Na capacidade de “chamada de ferramenta” – ou seja, a habilidade de utilizar aplicativos ou APIs externos – o GPT-5.2 Thinking atingiu 98,7% no Tau2-bench-Telecom, comparado a 95,6% anteriormente. Esse teste simula situações complexas de atendimento ao cliente em que a IA precisa gerenciar múltiplos recursos simultaneamente.
Raciocínio abstrato registra ganhos massivos
O progresso mais dramático foi observado no benchmark de raciocínio abstrato ARC-AGI-2. O GPT-5.2 Thinking alcançou 52,9%, ultrapassando os 17,6% do GPT-5.1 Thinking e ficando bem à frente do Gemini 3 Pro, que havia registrado 31,1% em seu lançamento.
Além disso, o GPT-5.2 Pro rompeu a marca dos 90% no teste mais simples ARC-AGI-1, atingindo 90,5%. A OpenAI ressalta que essa performance é obtida com um custo aproximadamente 390 vezes menor que o do modelo o3-preview, utilizado no final de 2024.
Sem dúvida, ambos os modelos ainda ficam aquém do sistema de IA da Poetiq, que utiliza uma abordagem híbrida combinando modelos de código aberto com motores comerciais como o Gemini 3 e o GPT-5.1.
| Benchmark | GPT-5.2 Thinking | GPT-5.1 Thinking | Gemini 3 Pro |
|---|---|---|---|
| GDPval (vitórias ou empates) – Tarefas de trabalho de conhecimento | 70,9% | 38,8% (GPT-5) | – |
| SWE-Bench Pro (público) – Engenharia de software | 55,6% | 50,8% | – |
| SWE-Bench Verified – Engenharia de software | 80,0% | 76,3% | 76,2% |
| GPQA Diamond (sem ferramentas) – Questões científicas | 92,4% | 88,1% | 91,9% |
| CharXiv Reasoning (com Python) – Questões sobre figuras científicas | 88,7% | 80,3% | 81,4% |
| AIME 2025 (sem ferramentas) – Matemática de competição | 100,0% | 94,0% | 95,0% |
| FrontierMath (Tier 1-3) – Matemática avançada | 40,3% | 31,0% | – |
| FrontierMath (Tier 4) – Matemática avançada | 14,6% | 12,5% | – |
| ARC-AGI-1 (Verified) – Raciocínio abstrato | 86,2% | 72,8% | – |
| ARC-AGI-2 (Verified) – Raciocínio abstrato | 52,9% | 17,6% | 31,1% |
| ScreenSpot-Pro – Compreensão visual de telas | 86,3% | 64,2% | 72,7% |
| Video-MMMU – Conhecimento a partir de vídeos | 85,9% | 82,9% | 87,6% |
| MMMLU – Perguntas e respostas multilíngues | 89,6% | 89,5% | 91,8% |
Desempenho vem com um preço premium
Os preços na API também sofreram reajustes. O GPT-5.2 custa US$ 1,75 por milhão de tokens de entrada e US$ 14 por milhão de tokens de saída – um aumento em relação à tarifa de US$ 1,25/US$ 10 do GPT-5.1. Entradas em cache recebem um desconto de 90%. O nível Pro apresenta um acréscimo significativo, custando US$ 21 para entrada e US$ 168 para saída por milhão de tokens.
| Modelo | Entrada (por 1M de tokens) | Saída (por 1M de tokens) |
|---|---|---|
| GPT-5.2 | US$ 1,75 | US$ 14 |
| GPT-5.2 Pro | US$ 21 | US$ 168 |
| GPT-5.1 | US$ 1,25 | US$ 10 |
| Gemini 3 Pro | US$ 2 | US$ 12 |
| Claude Opus 4.5 | US$ 5 | US$ 25 |
A OpenAI argumenta que o reajuste de preços reflete a melhora no desempenho, ressaltando que a eficiência aprimorada no uso de tokens deve, na prática, reduzir os custos totais para tarefas complexas.
Os novos modelos já estão sendo disponibilizados para assinantes pagantes do ChatGPT, abrangendo planos Plus, Pro e Enterprise. O GPT-5.1 continuará disponível como opção legado por três meses, e, para os desenvolvedores, não há planos imediatos de descontinuação do GPT-5.1, GPT-5 ou GPT-4.1 na API.
