OpenAI lança GPT-4.1: Nova família de modelos para melhorar agentes, contextos extensos e codificação

A OpenAI adiciona três novos modelos GPT-4.1 à sua API. Estes modelos foram projetados para superar o GPT-4o na maioria das áreas, reduzindo custos e melhorando a velocidade.

A empresa apresentou uma nova família de modelos de linguagem — GPT-4.1, GPT-4.1 mini e GPT-4.1 nano — disponíveis exclusivamente via API. Segundo a OpenAI, esses modelos são destinados a desenvolvedores profissionais e têm o objetivo de oferecer maior desempenho, respostas mais ágeis e custos inferiores em comparação com as versões anteriores, incluindo o GPT-4o e o já descontinuado GPT-4.5 Preview.

Embora o GPT-4.1 ainda não esteja disponível no ChatGPT, muitas das melhorias implementadas já foram incorporadas ao GPT-4o, com novos aprimoramentos a caminho.

Focando nas necessidades dos desenvolvedores

A OpenAI afirma que a série GPT-4.1 foi desenvolvida em resposta direta ao feedback da comunidade de desenvolvedores. As principais prioridades incluem uma formatação confiável, saídas estruturadas, geração de código mais estável — especialmente para aplicações frontend — e melhora na memória de longo prazo para casos de uso baseados em agentes.

Um dos recursos destacados é a capacidade dos modelos de gerar “diferenciais de código”, o que possibilita modificações direcionadas em bases de código existentes sem a necessidade de reescrever arquivos inteiros.

Interface de aplicativo de flashcards

Durante uma demonstração ao vivo, o novo modelo gerou um aplicativo simples de flashcards para aprendizagem de idiomas a partir de um único comando. Embora essa funcionalidade já estivesse presente em modelos anteriores, o design agora conta com uma paleta de cores mais vibrante.

O GPT-4.1 supera o GPT-4o em diversos benchmarks. Por exemplo, obteve 54,6% no teste SWE-Bench Verified para tarefas reais de desenvolvimento de software — mais de 21 pontos percentuais acima do seu antecessor. Além disso, o modelo demonstrou um desempenho superior em tarefas que exigem raciocínio em múltiplas etapas.

Gráfico de barras horizontais comparativo de precisão do SWE-Bench

Introduzindo o GPT‑4.1 mini e nano

Além do modelo principal, a OpenAI lançou duas variantes menores: GPT-4.1 mini e GPT-4.1 nano. Esses modelos foram concebidos para aplicações em que a velocidade e a eficiência são essenciais. A OpenAI afirma que o GPT-4.1 mini é 83% mais econômico e duas vezes mais rápido que o GPT-4o, mantendo desempenho igual ou superior em benchmarks, como o MMMU (Multimodal Understanding) e o MathVista.

Gráfico de dispersão comparando variantes do modelo GPT-4

O GPT-4.1 nano é o modelo mais compacto da série, otimizado para tarefas sensíveis à latência ou com restrições de custo, como classificação, autocompletar e extração de informações.

Nova janela de contexto suporta até 1 milhão de tokens

Os três modelos agora contam com uma janela de contexto significativamente ampliada, suportando até um milhão de tokens — oito vezes o limite anterior de 128 mil tokens. Em teoria, essa expansão permite a análise de oito bases completas de código React em uma única solicitação.

Entretanto, uma janela de contexto maior não garante desempenho consistente. A OpenAI reconhece as limitações de testes amplamente utilizados e apresenta o benchmark MRCR (Multi-Round Coreference Resolution), que avalia a capacidade do modelo de distinguir entre prompts quase idênticos distribuídos em contextos extensos.

No teste MRCR, múltiplos comandos semelhantes — como “Escreva um poema sobre antas” — são inseridos em pontos distintos de um longo texto. O modelo precisa responder a uma instância específica, por exemplo: “Me dê o terceiro poema sobre antas”. Devido à similaridade dos comandos e ao conteúdo distrativo ao redor, buscas simples por palavras-chave não são eficazes.

Embora o GPT-4.1 lidere nesse benchmark, os resultados indicam uma queda acentuada na precisão — de 80% para cerca de 50% — quando se utiliza a janela de contexto completa. Durante a demonstração, o modelo levou mais de um minuto para identificar uma única linha inserida em um arquivo de log de 450 mil tokens.

Gráfico de linha comparando a precisão do MRCR com aumento de tokens

O benchmark Graphwalks, também introduzido pela OpenAI, testa a capacidade do modelo em raciocinar sobre grandes volumes de texto por meio de estruturas semelhantes a grafos. Nesse teste, o modelo precisa identificar pontos que estejam a um número fixo de “arestas” de um nó, de forma similar a localizar todas as ruas a duas quadras de distância em um mapa. Esse desafio exige que o modelo deduza relações, em vez de confiar apenas em uma leitura superficial.

No benchmark, o GPT-4.1 alcança 61,7% de precisão com contextos abaixo de 128 mil tokens, superando o GPT-4o, que obteve 42%. Para contextos que excedem 128 mil tokens, a precisão do GPT-4.1 cai para 19%, evidenciando os desafios inerentes a essas tarefas. Modelos menores, como o GPT-4.1 mini e nano, apresentam desempenho significativamente inferior nesse cenário.

Adoção inicial e casos de uso

Várias empresas já reportam melhorias mensuráveis com o uso do GPT-4.1. Uma empresa de tecnologia jurídica registrou um aumento de 53% na precisão em cenários fiscais complexos. Em uma plataforma de análises, as taxas de sucesso em consultas SQL dobraram. Em outra empresa do setor legal, a precisão na análise de documentos aumentou em 17%, e uma companhia do ramo financeiro relatou uma melhoria de 50% na extração de informações de textos extensos.

Uma startup que teve acesso antecipado ao GPT-4.1 também observou ganhos substanciais. Inicialmente, os usuários poderão testar o novo modelo gratuitamente por sete dias por meio da plataforma de desenvolvedores, sendo que, posteriormente, ele passará a ser oferecido a um custo reduzido. Essa estratégia busca fortalecer a competitividade em um mercado cada vez mais disputado na área de codificação autônoma.

Preços e descontinuação do GPT-4.5

A OpenAI posiciona agressivamente a série GPT-4.1 em termos de custo. O GPT-4.1 é 26% mais econômico que o GPT-4o para consultas de porte médio, com custos de US$2 para entrada e US$8 para saída por milhão de tokens. O GPT-4.1 nano é a opção mais acessível, custando US$0,10 por milhão de tokens de entrada. As capacidades de contexto prolongado estão incluídas sem custo adicional, e os descontos para cache de prompts podem chegar a 75%.

Tabela comparativa das variantes do GPT-4.1

As diferentes variantes oferecem opções variadas de custo e desempenho para diversas aplicações. O GPT-4.5 Preview, lançado anteriormente, será descontinuado em 14 de julho de 2025. Durante a demonstração, os apresentadores brincaram: “Precisamos desses GPUs de volta”. A migração para o GPT-4.1 já está sendo incentivada.