Inteligência Artificial, Notícias

GPT-5.2 chega para superar o Gemini 3 do Google no jogo dos benchmarks de IA, apenas quatro semanas após o GPT-5.1

Atualizado em 12/12/2025

Faça parte da comunidade

Entre para nossa lista e receba conteúdos exclusivos

GPT-5.2 chega para superar o Gemini 3 do Google no jogo dos benchmarks de IA apenas quatro semanas após o GPT-5.1

Apenas quatro semanas após lançar o GPT-5.1, a OpenAI retorna com o GPT-5.2 e melhorias substanciais em benchmarks. Seja de forma irônica ou sincera, o CEO da OpenAI, Sam Altman, comentou sobre o lançamento com a simples observação de que “chegamos longe desde o GPT-5.1.”

Segundo a OpenAI, o GPT-5.2 é “a série de modelos mais capaz até agora para trabalhos de conhecimento profissional”. A empresa está disponibilizando três variantes: GPT-5.2 Instant para tarefas rápidas do cotidiano, GPT-5.2 Thinking para trabalhos mais complexos e GPT-5.2 Pro como opção premium para consultas particularmente exigentes.

O novo modelo equipara-se ao Gemini 3 Pro do Google em muitos benchmarks e supera-o claramente em outros – especialmente no teste de codificação SWE-Verified e no benchmark de raciocínio abstrato ARC-AGI-2. O desempenho expressivo do Gemini parece ter acelerado a resposta da OpenAI.

Primeiro modelo a alcançar desempenho de especialista em trabalho de conhecimento

No benchmark GDPval, que avalia tarefas de conhecimento em 44 áreas profissionais e mensura a relevância econômica dos modelos de IA, o GPT-5.2 Thinking atingiu 70,9% segundo a OpenAI – um salto expressivo em relação aos 38,8% do GPT-5 Thinking. Esse avanço, de mais de 80% em apenas um mês, faz do GPT-5.2 o primeiro modelo a operar no nível de um especialista humano em tarefas bem definidas.

A OpenAI destaca ganhos de eficiência, afirmando que o GPT-5.2 entrega resultados a mais de onze vezes a velocidade e a menos de 1% do custo dos especialistas da indústria. Em um benchmark interno para tarefas de investment banking, como modelagem financeira, as pontuações médias passaram de 59,1% para 68,4%.

Além disso, o GPT-5.2 Thinking registra novos recordes internos em codificação. No teste SWE-Bench Pro, que avalia tarefas realistas de programação em quatro linguagens, o modelo atingiu 55,6%, comparado aos 50,8% do GPT-5.1 Thinking. No SWE-Bench Verified, a pontuação subiu de 76,3% para 80%.

Menos alucinações e melhor compreensão de contexto longo

A OpenAI afirma ter reduzido em 30% a taxa de erros nas respostas. Em um teste com requisições anonimadas do ChatGPT, a proporção de respostas com pelo menos um erro caiu de 8,8% (GPT-5.1 Thinking) para 6,2% (GPT-5.2 Thinking). Embora os testes tenham sido realizados com configurações máximas de raciocínio e com pesquisa ativada – e os resultados verificados por outros modelos de IA – a empresa ressalta que o GPT-5.2 Thinking ainda não é perfeito, recomendando a verificação de suas saídas.

No que diz respeito ao processamento de textos extensos, o GPT-5.2 Thinking é o primeiro modelo a atingir quase 100% de acerto no teste 4-Needle MRCR com até 256.000 tokens. Esse benchmark exige que o modelo encontre e cite detalhes ocultos em vastos blocos de texto, auxiliando em tarefas intensivas de documentação, como análise de contratos, artigos de pesquisa ou transcrições.

A análise de imagens também apresentou avanços, com a redução pela metade das taxas de erro. Em testes de raciocínio sobre diagramas científicos, a pontuação no benchmark CharXiv saltou de 80,3% para 88,7%. Já em testes de entendimento de interface (ScreenSpot-Pro), o desempenho melhorou de 64,2% para 86,3%.

Na capacidade de “chamada de ferramenta” – ou seja, a habilidade de utilizar aplicativos ou APIs externos – o GPT-5.2 Thinking atingiu 98,7% no Tau2-bench-Telecom, comparado a 95,6% anteriormente. Esse teste simula situações complexas de atendimento ao cliente em que a IA precisa gerenciar múltiplos recursos simultaneamente.

Raciocínio abstrato registra ganhos massivos

O progresso mais dramático foi observado no benchmark de raciocínio abstrato ARC-AGI-2. O GPT-5.2 Thinking alcançou 52,9%, ultrapassando os 17,6% do GPT-5.1 Thinking e ficando bem à frente do Gemini 3 Pro, que havia registrado 31,1% em seu lançamento.

Além disso, o GPT-5.2 Pro rompeu a marca dos 90% no teste mais simples ARC-AGI-1, atingindo 90,5%. A OpenAI ressalta que essa performance é obtida com um custo aproximadamente 390 vezes menor que o do modelo o3-preview, utilizado no final de 2024.

Sem dúvida, ambos os modelos ainda ficam aquém do sistema de IA da Poetiq, que utiliza uma abordagem híbrida combinando modelos de código aberto com motores comerciais como o Gemini 3 e o GPT-5.1.

Benchmark	GPT-5.2 Thinking	GPT-5.1 Thinking	Gemini 3 Pro
GDPval (vitórias ou empates) – Tarefas de trabalho de conhecimento	70,9%	38,8% (GPT-5)	–
SWE-Bench Pro (público) – Engenharia de software	55,6%	50,8%	–
SWE-Bench Verified – Engenharia de software	80,0%	76,3%	76,2%
GPQA Diamond (sem ferramentas) – Questões científicas	92,4%	88,1%	91,9%
CharXiv Reasoning (com Python) – Questões sobre figuras científicas	88,7%	80,3%	81,4%
AIME 2025 (sem ferramentas) – Matemática de competição	100,0%	94,0%	95,0%
FrontierMath (Tier 1-3) – Matemática avançada	40,3%	31,0%	–
FrontierMath (Tier 4) – Matemática avançada	14,6%	12,5%	–
ARC-AGI-1 (Verified) – Raciocínio abstrato	86,2%	72,8%	–
ARC-AGI-2 (Verified) – Raciocínio abstrato	52,9%	17,6%	31,1%
ScreenSpot-Pro – Compreensão visual de telas	86,3%	64,2%	72,7%
Video-MMMU – Conhecimento a partir de vídeos	85,9%	82,9%	87,6%
MMMLU – Perguntas e respostas multilíngues	89,6%	89,5%	91,8%

Desempenho vem com um preço premium

Os preços na API também sofreram reajustes. O GPT-5.2 custa US$ 1,75 por milhão de tokens de entrada e US$ 14 por milhão de tokens de saída – um aumento em relação à tarifa de US$ 1,25/US$ 10 do GPT-5.1. Entradas em cache recebem um desconto de 90%. O nível Pro apresenta um acréscimo significativo, custando US$ 21 para entrada e US$ 168 para saída por milhão de tokens.

Modelo	Entrada (por 1M de tokens)	Saída (por 1M de tokens)
GPT-5.2	US$ 1,75	US$ 14
GPT-5.2 Pro	US$ 21	US$ 168
GPT-5.1	US$ 1,25	US$ 10
Gemini 3 Pro	US$ 2	US$ 12
Claude Opus 4.5	US$ 5	US$ 25

A OpenAI argumenta que o reajuste de preços reflete a melhora no desempenho, ressaltando que a eficiência aprimorada no uso de tokens deve, na prática, reduzir os custos totais para tarefas complexas.

Os novos modelos já estão sendo disponibilizados para assinantes pagantes do ChatGPT, abrangendo planos Plus, Pro e Enterprise. O GPT-5.1 continuará disponível como opção legado por três meses, e, para os desenvolvedores, não há planos imediatos de descontinuação do GPT-5.1, GPT-5 ou GPT-4.1 na API.

André Lug

Fundador da Iglu Online e escritor do blog André Lug. Como especialista em Inteligência Artificial e criação de conteúdo, traz conteúdos sobre IA, produtividade e empreendedorismo.