ChatGPT recebe atualização em sua funcionalidade de geração de imagens

Durante uma transmissão ao vivo na terça-feira, o CEO da OpenAI, Sam Altman, anunciou a primeira grande atualização nas capacidades de geração de imagens do ChatGPT em mais de um ano.

Agora, o ChatGPT pode aproveitar o modelo GPT-4o da empresa para criar e modificar imagens e fotos de forma nativa. Até o momento, o GPT-4o sempre foi utilizado para a geração e edição de textos, mas com essa atualização ele passa a manipular também imagens.

Altman informou que a geração nativa de imagens com GPT-4o já está disponível no ChatGPT e no Sora, produto de criação de vídeos com IA da OpenAI, para os assinantes do plano Pro, que custa US$200 por mês. Segundo a empresa, a funcionalidade será disponibilizada em breve para usuários do plano Plus, usuários gratuitos e desenvolvedores que utilizam a API.

De acordo com a OpenAI, o GPT-4o com saída de imagens “pensa” um pouco mais do que o modelo de geração de imagens que está sendo substituído, o DALL-E 3, fazendo com que as imagens geradas sejam mais precisas e detalhadas. Além disso, o novo modelo é capaz de editar imagens existentes, inclusive aquelas que incluem pessoas, transformando elementos ou “pintando” detalhes tanto do primeiro quanto do segundo plano.

A empresa não revelou quais dados de imagem foram usados para possibilitar essas novas capacidades. Muitos provedores de IA generativa consideram os dados de treinamento uma vantagem competitiva e, por isso, mantêm essas informações em sigilo. Outro fator é que os detalhes dos dados podem gerar processos judiciais relacionados à propriedade intelectual, desestimulando a divulgação.

Para atender aos criadores, a OpenAI disponibiliza um formulário para que estes possam solicitar a remoção de suas obras dos conjuntos de dados de treinamento. A empresa também afirma que respeita solicitações para impedir que seus robôs de web-scraping coletem dados, incluindo imagens, de sites.

Essa atualização no ChatGPT segue após a recente introdução da funcionalidade experimental de saída nativa de imagens do Gemini 2.0 Flash, um dos modelos principais do Google. No entanto, a funcionalidade do Gemini 2.0 Flash viralizou nas redes sociais por permitir a remoção de marcas d'água e a criação de imagens com personagens protegidos por direitos autorais.