OpenAI adiciona modelo de imagem do ChatGPT “GPT-Image-1” à API para desenvolvedores
A OpenAI disponibilizou seu modelo multimodal de geração de imagens, o GPT-Image-1, para desenvolvedores através da API. Anteriormente limitado ao ChatGPT, o modelo já está sendo adotado por empresas como Adobe e Figma.
De acordo com a OpenAI, o modelo gerou mais de 700 milhões de imagens para mais de 130 milhões de usuários durante sua primeira semana no ChatGPT. Com a ampliação do acesso via API, esse número tende a crescer.
Conhecido por seu acompanhamento extremamente preciso dos prompts, o modelo da OpenAI se destaca pela fidelidade comparado a outras soluções disponíveis. Em comparação direta, o novo Midjourney-v7 demonstrou desempenho significativamente inferior.
Imagens de IA custam apenas centavos
O processamento de imagens com o GPT-Image-1 é cobrado por tokens. A estrutura de preços da API distingue entre tokens de texto, tokens de entrada de imagem e tokens de saída de imagem. Tokens de texto custam US$ 5 por milhão, tokens de entrada de imagem US$ 10 por milhão e tokens de saída de imagem US$ 40 por milhão. Dependendo da qualidade selecionada, os custos geralmente variam de US$ 0,02 a US$ 0,19 por imagem.
Para os modelos GPT-4.1 e GPT-4o, o uso de tokens depende tanto do tamanho da imagem quanto do nível de detalhe escolhido. Uma taxa fixa de 85 tokens é cobrada para “detalhe: baixo”. Já para “detalhe: alto”, a imagem é dividida em blocos de 512 pixels, cada um adicionando 170 tokens à taxa base. Por exemplo, uma imagem 1024×1024 com alto nível de detalhes requer 765 tokens (quatro blocos mais 85 tokens).
Outros modelos, como o GPT-4.1-mini, utilizam um cálculo baseado em blocos de 32×32 pixels, com um máximo de 1.536 tokens de imagem. Imagens maiores, como de 1800×2400 pixels, são redimensionadas antes do processamento para se adequarem ao limite de tokens.
Qualidade | Quadrado (1024×1024) | Retrato (1024×1536) | Paisagem (1536×1024) |
---|---|---|---|
Baixo | 272 tokens | 408 tokens | 400 tokens |
Médio | 1056 tokens | 1584 tokens | 1568 tokens |
Alto | 4160 tokens | 6240 tokens | 6208 tokens |
Imagens podem ser enviadas via URL direta ou como dados codificados em Base64. A API aceita formatos como PNG, JPEG, WEBP e GIF não animado, com tamanho máximo de 20 MB. Em altas definições, as imagens são redimensionadas para uma resolução máxima de 768×2000 pixels.
O modelo interpreta conteúdos visuais como objetos, cores, formas e textos incorporados. No entanto, há limitações para textos pequenos, fontes não latinas, imagens rotacionadas ou diagramas complexos. A tecnologia não é adequada para imagens médicas, CAPTCHAs ou tarefas que requeiram alta precisão espacial, sendo que as interpretações são geralmente aproximadas, como na contagem de objetos ou identificação de posições. Imagens contendo marcas d’água, textos ou conteúdo NSFW não são aceitas. O parâmetro “detalhe” determina o nível de análise, com opções “baixo”, “alto” ou “auto”.
Além da geração de imagens através da API de Imagens, o modelo também pode analisar imagens. As APIs de Chat Completions e de Respostas podem processar imagens como entrada para gerar saídas textuais. O suporte para a geração de imagens via a API de Respostas está planejado.
Organizações podem precisar completar um processo de verificação para ativar o modelo, com detalhes sobre a gestão de acesso disponíveis nas configurações da organização. Desenvolvedores podem testar o modelo por meio do Playground ou consultar o Guia Oficial de Geração de Imagens, disponível nas documentações da OpenAI.
O modelo utiliza os mesmos mecanismos de segurança da geração de imagens do ChatGPT-4o, incluindo filtros de conteúdo e metadados C2PA para verificação de origem. A intensidade dos filtros pode ser ajustada via o parâmetro “moderação”. A OpenAI afirma que nenhum dado de clientes obtido por meio da API é utilizado para treinamento, estando todo o uso sujeito às diretrizes de uso da API.
Adoção inicial por plataformas comerciais
Empresas como Adobe (Creative Cloud), Figma (plataforma de design), Airtable (automação de fluxos de trabalho), Wix (design de sites) e Photoroom (imagens para e-commerce) já estão utilizando a API em produção, conforme informações da OpenAI. A Adobe, por exemplo, está incorporando a geração de imagens em suas aplicações Firefly e Express para ampliar as opções criativas disponíveis.
Outras empresas, como Gamma, HeyGen, OpusClip e Quora, adotam o modelo para aplicações diversas, que vão desde gráficos para apresentações e criação de avatares até thumbnails para vídeos no YouTube e geração geral de imagens. A Instacart está experimentando a tecnologia para a criação de imagens de receitas, enquanto a Invideo testa seu potencial para edição de vídeos.