ChatGPT acaba de receber uma grande atualização para geração de imagens

OpenAI elevou significativamente as capacidades de geração de imagens do ChatGPT, inserindo essa melhoria como parte do modelo GPT-4o lançado em maio passado. Agora, o gerador de imagens aprimorado está disponível para todos os usuários do ChatGPT, tanto nos planos pagos quanto na versão gratuita (embora os usuários gratuitos tenham limitações no uso).

Até o momento, já era possível gerar imagens por meio da interface do ChatGPT, embora, por trás das cortinas, essa tarefa fosse delegada ao modelo de imagens DALL-E 3. Agora, todo o processo será gerenciado pelo GPT-4o, proporcionando uma experiência mais consistente e nativa.

Há diversas melhorias, especialmente em áreas nas quais as ferramentas de criação de imagens por IA costumavam ter dificuldades: renderização de textos, manutenção da consistência dos personagens entre as imagens e a elaboração de diagramas. Segundo a OpenAI, você pode esperar resultados mais “precisos, acurados e fotorrealistas” a partir dos seus comandos.

Imagens mais realistas e precisas

Imagens geradas por IA muitas vezes apresentam um brilho artificial que denuncia sua origem algorítmica, mas isso deverá ser menos perceptível nas criações do GPT-4o. Um dos exemplos demonstrados pela OpenAI mostra uma mulher escrevendo em uma lousa, com uma paisagem refletida ao fundo — tudo com um realismo marcante, apesar de uma pequena legenda indicar que essa era a melhor tentativa dentre oito feitas para aquele comando.

Além disso, a arte gerada pela IA deverá seguir mais fielmente os comandos fornecidos. Se você especificar objetos em locais determinados ou posições específicas para pessoas, as instruções serão executadas de maneira mais precisa. Um exemplo impressionante é uma tira cômica dividida em quatro quadros, renderizada pelo ChatGPT sem erros ou inconsistências evidentes.

Em alguns testes, solicitações para transformar um romance de Austen em uma tira cômica ou criar a imagem fotorrealista de uma mansão com jardim resultaram em produções notáveis — ainda que não perfeitas. O tempo de renderização agora é maior (normalmente minutos em vez de segundos), mas a qualidade das imagens está consideravelmente superior ao que era produzido anteriormente.

Texto e diagramas muito melhorados

Renderizar textos e diagramas com precisão sempre foi um desafio para as IAs. Devido à maneira como essas ferramentas funcionam, elas são melhores em inventar e remixar imagens que viram durante seu treinamento do que em reproduzir uma cópia exata do alfabeto ou sequências precisas de formas geométricas como retângulos e setas.

O novo modelo GPT-4o consegue renderizar textos e diagramas com alto nível de detalhe e precisão, reduzindo erros e inconsistências. Em uma demonstração, a OpenAI exibiu um cardápio, um convite, um cartão de embarque e um diagrama explicativo do experimento com o prisma de Newton, todos gerados a partir de um único comando.

Quando solicitado a produzir um infográfico simples sobre o DNA ou uma capa de livro com título e autor especificados, o ChatGPT seguiu exatamente o comando. O infográfico ficou básico, mas preciso, e a capa de livro assemelhava-se àquelas encontradas em lojas, sem apresentar artefatos estranhos ou inconsistências.

Consistência e edição

Outro avanço notório diz respeito à edição de imagens: agora é mais fácil manter a coerência de personagens e cenários entre diferentes imagens, ajustar apenas partes específicas de uma foto preservando o restante e criar camadas distintas dentro de uma mesma imagem. É possível até gerar fundos transparentes ou especificar cores usando códigos hexadecimais.

Outras melhorias incluem a capacidade do ChatGPT de aceitar e remixar imagens enviadas pelo usuário, integrando informações de fontes externas e de seu próprio banco de dados. Em uma demonstração, foi utilizado o comando “crie um infográfico visual descrevendo o porquê de San Francisco ser tão enevoada” e o ChatGPT atendeu da melhor forma possível à solicitação.

Embora o ChatGPT esteja bem melhor na edição de imagens e na adaptação de estilos, ainda há desafios em manter a consistência em cenas complexas ou com múltiplos personagens. A tendência de exagerar nas edições pode tornar a ferramenta menos útil para ajustes sutis ou para a criação de séries de imagens que requerem uma aparência uniforme.

Questões de direitos autorais e segurança

Como em qualquer anúncio envolvendo IA generativa, surgem questões sobre direitos autorais, uso indevido e demandas energéticas. A OpenAI já reconheceu ser impossível construir essas ferramentas sem treinar com imagens protegidas por direitos autorais, mas recentemente a empresa iniciou acordos de conteúdo com fornecedores como o Shutterstock. Segundo Brad Lightcap, diretor operacional da OpenAI, o gerador de imagens GPT-4o rejeitará comandos que tentem imitar o trabalho de artistas vivos.

No que diz respeito à segurança, a OpenAI afirma que todas as imagens geradas contêm metadados C2PA para identificá-las como criações de IA — embora esses metadados possam ser removidos facilmente, por exemplo, por meio de uma captura de tela. O gerador também foi projetado para negar qualquer tentativa de criar imagens de abuso sexual infantil, deepfakes de caráter sexual ou outros conteúdos que violem suas políticas.

Esse avanço marca um passo importante para a geração de imagens por IA: a tecnologia aprimorada chega a momentos impressionantes e muitos dos sinais reveladores dos erros típicos estão desaparecendo. No entanto, surgem grandes questionamentos sobre o futuro, em que falsificações poderão ser criadas com extrema facilidade, o trabalho criativo de pessoas poderá ser substituído por robôs e nossas habilidades de desenhar, escrever ou programar poderão ser comprometidas. E como a IA generativa encontrará mais dados para seu treinamento nesse cenário?