OpenAI adiciona raciocínio e busca na web ao ChatGPT Images 2.0

A OpenAI está aprimorando seu gerador de imagens, o ChatGPT Images 2.0, que agora incorpora um módulo de raciocínio e a capacidade de realizar buscas na web antes de gerar as imagens. O modelo pode, a partir de um único comando, criar até oito imagens consistentes, e apresenta um desempenho significativamente melhor no tratamento de textos – inclusive quando se trata de scripts não latinos.

Atualização

O novo modelo de imagens, denominado GPT Image 2, compartilha a mesma capacidade central que o Nano Banana Pro do Google: ele “pensa” antes de gerar, dedicando um tempo variável ao raciocínio conforme o modo selecionado, podendo até consultar a web durante esse processo. De acordo com uma publicação da própria empresa, essa abordagem deve resultar em uma maior variedade e precisão nas imagens geradas. Vale destacar que as saídas estendidas com esse modo de pensamento estão disponíveis apenas para usuários das versões Plus, Pro e Business do ChatGPT.

Com o modo de pensamento ativado, o ChatGPT Images 2.0 é capaz de entregar até oito imagens simultâneas a partir de um único comando experimental, garantindo que personagens, objetos e estilos se mantenham consistentes em todas as cenas. Entre os casos de uso exemplificados estão páginas de mangás gerados a partir de uma única imagem combinada a um texto, séries de gráficos para redes sociais e planos de design para diversos ambientes residenciais.

Qualidade aprimorada para todos os usuários

Independentemente do modo de pensamento, todos os usuários do ChatGPT passam a usufruir de uma qualidade superior nas imagens. Segundo a OpenAI, o gerador agora consegue captar de forma mais precisa as “características marcantes das fotos”, trazendo melhorias significativas para arte em pixel, mangá, cenas de filmes e outros tipos de imagens. O novo modelo também foi concebido para lidar com elementos mais delicados, como textos pequenos, iconografia, elementos de interface, composições densas e instruções estilísticas sutis.

Além disso, o suporte a diferentes proporções vai desde o ultra-wide (3:1) até o ultra-tall (1:3), abrangendo desde banners e slides de apresentações até telas de dispositivos móveis. Resoluções de imagem de até 2K estão disponíveis via API.

Precificação da API baseada em tokens

Desenvolvedores poderão integrar o modelo em seus próprios produtos por meio da API, disponibilizada sob o nome “gpt-image-2”. A cobrança é feita de forma baseada em tokens, com custos variando conforme a qualidade e a resolução escolhida para as imagens. Para imagens em diferentes níveis de qualidade, os preços variam consideravelmente, e produções com resoluções maiores podem apresentar custos distintos. Vale ressaltar que saídas em resoluções acima de 2K ainda se encontram em fase beta e podem ter resultados inconsistentes.

Avanços na geração de imagens complexas

Relatos indicam que o modelo se mostra muito mais robusto na criação de imagens e diagramas complexos que envolvem textos, incluindo capturas de tela detalhadas – uma característica especialmente útil para aplicações em publicidade e educação, onde a renderização precisa do texto é essencial.

O sistema também corrige o tradicional “aspecto de IA”, eliminando a aparência de pele excessivamente lisa e a iluminação perfeitamente artificial, problemas que eram notórios em versões anteriores. A novidade será oficialmente apresentada em uma transmissão ao vivo marcada para hoje, à partir das 12 PM PT.

Exemplo de imagem gerada com GPT-Image 2

Screenshot gerada por IA mostrando o modelo em ação