Os novos modelos o3 e o4-mini da OpenAI raciocinam com imagens e ferramentas

A OpenAI revelou o o3 e o o4-mini, as mais novas adições à sua linha de modelos da série o, que a empresa afirma serem os modelos mais inteligentes até o momento.

De acordo com a OpenAI, um avanço fundamental é a capacidade desses modelos funcionarem como agentes, utilizando e combinando todas as ferramentas disponíveis no ChatGPT – desde pesquisa na web, análise de dados em Python, análise de imagens até geração de imagens.

Relata-se que os modelos aprenderam, de forma independente, quando e como empregar as diversas ferramentas para resolver problemas complexos, geralmente concluindo tarefas em menos de um minuto.

A OpenAI demonstra essa capacidade por meio de um exemplo prático envolvendo o consumo de energia, no qual o modelo combina pesquisa na web, análise em Python, criação de gráficos e elaboração de explicações para apresentar uma solução abrangente.

Pensando com imagens

Outro avanço significativo é a capacidade dos modelos de integrar imagens diretamente em sua cadeia interna de raciocínio, “pensando” com elas em vez de simplesmente “vê-las”.

Essa habilidade é aprimorada pelo uso nativo de ferramentas de manipulação de imagens – como zoom, recorte ou rotação – incorporadas ao processo de raciocínio, conforme detalhado pela OpenAI em um post sobre as capacidades de pensamento visual.

Em um exemplo, a OpenAI demonstra como o modelo amplia uma escrita ilegível, invertida, corrige a orientação da imagem e, em seguida, realiza a transcrição correta.

upside down image

Segundo a OpenAI, a combinação de um raciocínio aprimorado com acesso total às ferramentas resulta em um desempenho significativamente superior em benchmarks acadêmicos e tarefas do mundo real, com o objetivo de criar um ChatGPT mais autônomo na execução de tarefas.

Estabelecendo novos recordes em benchmarks

O modelo o3, inicialmente apresentado em dezembro de 2024 e aprimorado desde então, é considerado o modelo de raciocínio mais poderoso da empresa até o presente momento.

A OpenAI afirma que o o3 apresenta melhorias em codificação, matemática, ciências e percepção visual, alcançando resultados de ponta em benchmarks como Codeforces, SWE-bench e MMMU.

Segundo a empresa, o o3 comete 20% menos erros graves que seu antecessor, o o1, em tarefas difíceis do mundo real – especialmente em programação, consultoria empresarial e ideação criativa. Testadores iniciais destacaram o rigor analítico e a capacidade de gerar hipóteses do modelo.

Os modelos o3 e o4-mini estabeleceram novos patamares, principalmente em benchmarks multimodais e científicos.

O o4-mini é uma variante menor, otimizada para velocidade e eficiência de custos, que, segundo a OpenAI, oferece desempenho notável para seu tamanho e preço, especialmente em tarefas de matemática, codificação e atividades visuais.

No desafio AIME 2025 com acesso a Python, o o4-mini atingiu 99,5%, um índice que a OpenAI descreve como próximo da saturação do benchmark. Em comparação com o o3-mini, o o4-mini também demonstrou melhorias significativas em tarefas não técnicas e em ciência de dados.

openai o3 o4 mini benchmarks

Em uma análise custo-desempenho, o o4-mini se destaca, apresentando uma relação preço-desempenho superior.

o1 o3 o4 comparison performance cost 2

Mais poder computacional = melhor desempenho

A OpenAI relata um aumento de uma ordem de magnitude na potência computacional para o aprendizado por reforço e inferências durante o processo de raciocínio, evidenciando ganhos contínuos de desempenho. Assim, os modelos o3 e o o4-mini se mostram não apenas mais inteligentes, mas também mais eficientes em termos de custo quando comparados aos seus antecessores o1 e o3-mini.

o1 o3 o4 comparison performance cost 1

A empresa acredita que a combinação do aprendizado por reforço com um período de “pensamento” mais prolongado melhora o desempenho dos modelos de IA.

Por meio do aprendizado por reforço, os modelos foram treinados para identificar quando e como utilizar as ferramentas de maneira estratégica, aprimorando suas capacidades em situações de raciocínio visual e processos compostos por múltiplas etapas.

Codex CLI e disponibilidade

Usuários pagantes do ChatGPT (Plus, Pro, Team) já podem acessar os modelos o3, o o4-mini e o o4-mini-high; contas corporativas e educacionais terão acesso em breve. Usuários gratuitos podem experimentar o o4-mini na seleção “Think”. Desenvolvedores poderão utilizar os modelos via API de Chat Completions e a nova API Responses, sendo necessária, em alguns casos, a verificação da organização.

Um modelo denominado o3-pro, com suporte completo às ferramentas, tem lançamento previsto para as próximas semanas. Modelos futuros combinarão as capacidades de raciocínio da série o com as habilidades conversacionais e de utilização de ferramentas da série GPT – referência que possivelmente remete ao aguardado GPT-5, com lançamento programado para este verão.

Como experimento, a OpenAI também está lançando o Codex CLI, um agente de codificação leve para o terminal que roda localmente e utiliza o raciocínio dos modelos o3/o4-mini. Essa ferramenta permite trabalho multimodal via linha de comando – incluindo capturas de tela e esboços – com acesso ao código local, estando disponível como projeto de código aberto no GitHub. Uma iniciativa de financiamento, com US$ 1 milhão em créditos de API, visa apoiar projetos nessa área.

Limitações no conhecimento factual e alucinações

Apesar dos avanços no uso de ferramentas e no raciocínio, os novos modelos ainda apresentam algumas fragilidades. Em uma avaliação denominada PersonQA, que testa os modelos com perguntas sobre personalidades conhecidas, o o4-mini obteve desempenho inferior em comparação com o o1 e o o3. A OpenAI atribui essa diferença ao tamanho reduzido do modelo, afirmando que “modelos menores possuem menos conhecimento sobre o mundo e são mais propensos a alucinações”.

Além disso, observa-se uma diferença notável entre o o1 e o o3: este último tende a fazer mais afirmações em geral – tanto corretas quanto incorretas. A empresa suspeita que as capacidades de raciocínio mais robustas do o3 o tornam mais propenso a gerar declarações mesmo quando as informações são ambíguas, fato que será investigado em estudos futuros.