Atualizado em 5 de março de 2025

O GPT-4.5 está agora disponível para todos os usuários do ChatGPT Plus.

O maior modelo da OpenAI, GPT-4.5 entrega mais sensações do que benchmarks

A OpenAI lançou o GPT-4.5 como uma “Visualização de Pesquisa”. O novo modelo de linguagem tem o objetivo de ser mais natural e menos propenso a alucinações, embora seja significativamente mais caro que seus antecessores.

A empresa apresenta o GPT-4.5 como seu maior e melhor modelo para conversação, inicialmente disponibilizado para usuários do ChatGPT Pro e desenvolvedores, com acesso para usuários Plus e Team a partir da próxima semana.

O GPT-4.5 representa uma evolução do aprendizado não supervisionado, em vez de seguir a abordagem de raciocínio das séries anteriores. Enquanto modelos como o o1 e o3-mini processam uma etapa de raciocínio antes de responder, o GPT-4.5 responde diretamente como um modelo clássico de linguagem, alcançando suas melhorias de desempenho através do escalonamento tradicional do pré-treinamento.

Segundo a OpenAI, o GPT-4.5 (também conhecido como Orion) é o maior modelo da empresa até o momento e, de acordo com o pesquisador Rapha Gontijo Lopes, a empresa “provavelmente treinou o maior modelo do mundo”. Ao mesmo tempo, a companhia ressalta em sua documentação que o GPT-4.5 não é um “modelo de fronteira”, possivelmente porque já foi treinado o o3, um modelo que supera significativamente o GPT-4.5 em diversas áreas.

O custo reflete as exigências computacionais: a US$75 por milhão de tokens de entrada e US$150 por milhão de tokens de saída, tornando o GPT-4.5 muito mais oneroso do que o GPT-4o (US$2,50/US$10) ou o o1 (US$15/US$60). Por isso, a equipe ainda não tem certeza se o modelo será mantido na API nesta configuração a longo prazo. Assim como seu predecessor, ele possui um contexto de 128.000 tokens.

A OpenAI acredita que o raciocínio será uma capacidade central em modelos futuros e que as duas abordagens de escalonamento – pré-treinamento e raciocínio – se complementarão. À medida que modelos como o GPT-4.5 se tornam mais inteligentes e ricos em conhecimento através do pré-treinamento, eles oferecem bases mais sólidas para operações de raciocínio e para agentes que utilizam ferramentas. Recentemente, Altman anunciou que o GPT-5 combinará essas duas capacidades.

Desempenho misto do GPT-4.5

Em testes de benchmark, o GPT-4.5 apresenta melhorias significativas em determinadas áreas. No teste SimpleQA, por exemplo, ele atinge uma acurácia de 62,5%, em comparação com 38,2% do GPT-4o e 43,6% do recentemente lançado Grok 3.

SimpleQA GPT 4.5

A taxa de alucinação diminuiu de 61,8% para 37,1%, superando os modelos o1 e o3-mini. Nos testes MMMLU (multilíngue) e MMMU (multimodal), o GPT-4.5 supera seus predecessores GPT-4o (81,5% e 69,1%) e o3-mini (81,1% e NN), alcançando 85,1% e 74,4% respectivamente.

Em avaliações humanas, os avaliadores demonstraram preferência pelo GPT-4.5 em comparação ao GPT-4o em todas as categorias analisadas: inteligência criativa (56,8%), perguntas profissionais (63,2%) e questões cotidianas (57,0%).

No entanto, em benchmarks de áreas como STEM, o modelo ainda não supera sistemas especificamente desenvolvidos para raciocínio, como o o3-mini. No teste GPQA (ciências naturais), o GPT-4.5 atinge 71,4% em comparação com 53,6% do GPT-4o, mas ainda fica atrás do o3-mini, que alcança 79,7%. Em AIME '24 (matemática), o GPT-4.5 atinge 36,7% – uma melhora expressiva em relação aos 9,3% do GPT-4o – mas não se compara aos 87,3% do o3-mini. Para tarefas de programação, o GPT-4.5 apresenta melhores resultados no SWE-Lancer Diamond Test, com 32,6% em comparação aos 23,3% do GPT-4o, superando também o o3-mini, que obteve 10,8%, embora com custos bem superiores. No teste SWE-Bench Verified, o modelo atinge 38,0% contra 30,7% do GPT-4o, mas ainda fica atrás dos 61,0% conseguidos pelo o3-mini.

GPT 4.5 Benchmarks

O recém-lançado Claude 3.7 Sonnet atingiu 62,3% e 70,3% em benchmarks divulgados pela Anthropic, mas esses valores não são diretamente comparáveis, pois foram usados métodos e conjuntos de problemas distintos. Por exemplo, na documentação do o3-mini, o modelo chegou a 49,3%.

No benchmarking independente Aider Polyglot Coding Benchmark, o GPT-4.5 alcança 45%, significativamente acima dos 23% do GPT-4o, mas ainda fica atrás de outros modelos, enquanto o Sonnet 3.7 chega a 60% sem o uso de raciocínio.

Em resumo, não há um salto maciço de desempenho nos benchmarks – os melhores resultados parecem estar concentrados no teste SimpleQA. Nos próximos dias, muito se discutirá sobre se o escalonamento chegou ao fim, se o deep learning está esbarrando em um limite e se o raciocínio pode seguir o mesmo caminho.

GPT-4.5: Sensações e aprimoramentos difusos

O CEO da OpenAI, Sam Altman, que recentemente se tornou pai, não participou da apresentação do GPT-4.5, mas comentou na rede social X: “É o primeiro modelo que, para mim, se assemelha a conversar com uma pessoa atenciosa. Tive vários momentos em que fiquei surpreso ao receber conselhos realmente bons de uma IA.” Altman enfatiza que o GPT-4.5 não se trata de um modelo de raciocínio e que não quebrará recordes em benchmarks: “É um tipo diferente de inteligência e há uma magia nele que não senti antes.”

O foco, portanto, é mais sobre sensações do que sobre números em benchmarks.

O ex-integrante e fundador Andrej Karpathy observa um progresso semelhante, embora considere difícil mensurá-lo com precisão. Em seus comentários sobre o lançamento, ele explica que cada incremento de 0,5 na versão representa aproximadamente um aumento de dez vezes no poder computacional empregado no treinamento.

Karpathy descreve a evolução dos modelos GPT: do GPT-1, que mal gerava textos coerentes, passando pelo GPT-2, visto como um “brinquedo confuso”, até o GPT-3, que apresentou resultados significativamente mais interessantes. Em seguida, o GPT-3.5 ultrapassou o limiar para a prontidão de mercado e desencadeou o “momento ChatGPT” da OpenAI.

Com o GPT-4, as melhorias já eram mais sutis, segundo Karpathy, que comentou: “Tudo estava apenas um pouco melhor, mas de forma difusa.” Segundo ele, a escolha de palavras ficou um pouco mais criativa, a compreensão das nuances melhorou, as analogias passaram a fazer mais sentido, o modelo ficou um pouco mais engraçado e as alucinações ocorreram com menor frequência.

Após testar o GPT-4.5 com expectativas semelhantes – um modelo desenvolvido com dez vezes o poder computacional do GPT-4 – sua conclusão foi: “Estou no mesmo hackathon de dois anos atrás. Tudo está um pouco melhor e é incrível, mas de formas que não são triviais de apontar.”