Na quarta-feira, a OpenAI disponibilizou a tecnologia por trás do seu novo e aprimorado recurso de geração de imagens no ChatGPT para sua API, permitindo que desenvolvedores integrem essa funcionalidade em seus aplicativos e serviços.

O novo gerador de imagens da OpenAI, lançado para a maioria dos usuários do ChatGPT no final de março, viralizou por sua capacidade de criar fotos realistas no estilo Ghibli e por gerar “bonecos de ação de IA”. Essa situação trouxe benefícios e desafios para a empresa: enquanto gerou milhões de novos cadastros no ChatGPT, também pressionou significativamente a sua capacidade operacional. Segundo a empresa, mais de 130 milhões de usuários criaram mais de 700 milhões de imagens apenas na primeira semana de disponibilidade da ferramenta.

Na API da OpenAI, a funcionalidade de geração de imagens é movida por um modelo de inteligência artificial chamado “gpt-image-1”. Modelo nativamente multimodal, o gpt-image-1 é capaz de produzir imagens em diferentes estilos, seguir diretrizes personalizadas, aproveitar conhecimentos do mundo e renderizar textos.

Os desenvolvedores podem gerar várias imagens simultaneamente utilizando o gpt-image-1, além de controlar a qualidade da geração — e, consequentemente, a velocidade.

De acordo com a OpenAI, o modelo utiliza os mesmos mecanismos de segurança presentes na geração de imagens do ChatGPT, incluindo proteções que impedem a criação de conteúdos que contrariem as políticas da empresa. Os desenvolvedores têm a possibilidade de ajustar a sensibilidade da moderação, configurando para “automático” para uma filtragem padrão ou “baixo” para uma filtragem menos restritiva. No modo de filtragem baixo, menos categorias de conteúdo potencialmente inadequado para determinadas faixas etárias são restringidas, conforme a documentação da OpenAI.

A OpenAI também afirma que todas as imagens geradas com o gpt-image-1 são marcadas com metadados C2PA, o que permite identificá-las como criações de inteligência artificial em plataformas e aplicativos compatíveis.

Os preços estabelecidos são de US$ 5 por milhão de tokens de entrada para textos, US$ 10 por milhão de tokens de entrada para imagens e US$ 40 por milhão de tokens de saída para imagens. (Tokens são as menores unidades de dados processadas pelo modelo.) Esses valores correspondem a aproximadamente 2 centavos, 7 centavos e 19 centavos por imagem gerada para imagens quadradas de baixa, média e alta qualidade, respectivamente.

A OpenAI informa que empresas como Adobe, Airtable, Wix, Instacart, GoDaddy, Canva e Figma já estão utilizando ou experimentando o gpt-image-1. Por exemplo, a plataforma Figma Design agora permite que os usuários gerem e editem imagens por meio do modelo, enquanto o Instacart está testando a tecnologia para criar imagens de receitas e listas de compras.