ChatGPT tem olhos através GPT-4V e agora pode analisar gráficos, fotos e todos os outros tipos de conteúdo visual. Isso abre novas possibilidades.

Cerca de meio ano depois de anunciar a versão multimodal do GPT-4, agora chamado GPT-4V(ision), a OpenAI está finalmente lançando esse recurso para clientes pagantes do ChatGPT. Em pouco tempo, os usuários têm explorado as possibilidades do que pode ser feito com o ChatGPT usando prompts combinados de imagem e texto. Aqui estão os exemplos mais interessantes que encontramos até agora.

Desenvolvimento front-end

Um dos casos de uso mais populares para modelos de linguagem grande é a programação. É aqui que os novos recursos multimodais do ChatGPT entram em jogo. Por exemplo, o GPT-4V pode reconstruir um painel de site a partir de capturas de tela ou desenhos.

Vídeo: @mckaywrigley/Twitter

A ferramenta de IA parece imitar a estrutura dada quase perfeitamente, mesmo tomando os dados do modelo 1:1 como espaços reservados. Apenas detalhes de design como cores, formas e fontes são diferentes. No entanto, o GPT-4V pode reduzir significativamente o tempo de desenvolvimento desde o projeto até o protótipo nesta área.

Vídeo: @mckaywrigley/Twitter

Matt Shumer, CEO da startup de IA HyperWrite, foi além e combinou o GPT-4V com o conceito de AutoGPT. Aqui, a IA usa o resultado de uma execução como um prompt para a próxima execução, permitindo que ela melhore continuamente o código por conta própria.

Vídeo: @mattshumer_/Twitter

Explicar quadrinhos, memes ou infográficos

O GPT-4V pode explicar o que é mostrado e o que significa uma imagem. Seja um desenho animado, uma história em quadrinhos ou um meme do Twitter, o ChatGPT primeiro descreverá a imagem em detalhes, incluindo legendas, e depois explicará, por exemplo, no caso de imagens bem-humoradas, por que o conteúdo pode ser entendido como engraçado.

Explicar quadrinhos, memes ou infográficos

Twitter: @skirano/Twitter

Explicar quadrinhos, memes ou infográficos

Bild: @rcweston/Twitter

Ajudando na lição de casa

A IA desempenha um papel importante na educação, até porque os alunos usam o ChatGPT e afins como ferramentas. A multimodalidade pode ter um grande impacto na utilidade de grandes modelos de linguagem nesse contexto.

Como Mckay Wrigley demonstra no Twitter, o GPT-4V pode facilmente analisar até mesmo infográficos complexos como essa rotulagem de uma célula humana. Em seu exemplo, ele tem a célula explicada em um nível de nono ano e pode seguir com perguntas mais aprofundadas.

Vídeo: @mckaywrigley/Twitter

O modelo também pode dividir infográficos em explicações de texto simples, como mostra Muratcan Koylan.

Ajudando na lição de casa

magem: Muratcan Koylan/@youraimarketer

Dê conselhos sobre design de interiores ou visualize os efeitos dos cogumelos psicodélicos

Além dos gráficos, o GPT-4V também pode processar fotos ou imagens geradas por IA. Neste exemplo, o usuário do Twitter Pietro Schirano se alimentou de imagens de IA e pediu ao ChatGPT um nome para esse estilo interior, que a IA prontamente forneceu uma explicação razoável.

Dê conselhos sobre design de interiores ou visualize os efeitos dos cogumelos psicodélicos

Imagem: @skirano/Twitter

Schirano ressalta o potencial da IA personalizada com outro exemplo. Ele armazenou algumas informações sobre si mesmo nas instruções personalizadas, que o ChatGPT leva em conta ao avaliar seu interior.

Dê conselhos sobre design de interiores ou visualize os efeitos dos cogumelos psicodélicos

Imagem: @skirano/Twitter

O exemplo a seguir mostra uma combinação interessante de exemplo de imagem, descrição de imagem e geração de imagem resultante: O usuário do Twitter Pietro Schirano mostra pela primeira vez ao GPT-4V uma foto de cogumelos psicodélicos. Sem dizer ao sistema quais cogumelos são, ele pergunta ao GPT-4V como se sentiria depois de comê-los.

Dê conselhos sobre design de interiores ou visualize os efeitos dos cogumelos psicodélicos

O sistema fornece uma descrição apropriada e pode então definir as alucinações conforme necessário em um prompt de imagem que gera a seguinte saída via DALL-E 2.

dall e 2 mushrooms
Imagem: Pietro Schirano/@skirano

Com o lançamento do DALL-E 3 em outubro para todos os usuários pagantes no ChatGPT, esse fluxo de trabalho deve ser possível diretamente no ChatGPT Plus, e com muito mais qualidade.

Decifrar escrita ilegível

OCR (Optical Character Recognition) é apenas uma pequena parte do GPT-4V, mas suas capacidades são imensas. Os historiadores podem estar interessados em saber que o GPT-4V pode decifrar e traduzir manuscritos históricos. “As humanidades estão prestes a mudar de uma maneira importante”, diz o pesquisador Ethan Mollick depois de usar o GPT-4V para converter, traduzir e analisar as notas centenárias de Robert Hooke.

Decifrar escrita ilegível
Imagem: Ethan Mollick
Decifrar escrita ilegível
Imagem: Ethan Mollick

Como usar o GPT-4V?

O GPT-4V requer uma assinatura paga ao ChatGPT-Plus por US $ 20 por mês. Depois de obter isso, você pode fazer upload de imagens através do site e do aplicativo para smartphone. O aplicativo permite que você carregue várias imagens de uma só vez e destaque áreas específicas da imagem. A OpenAI está atualmente lançando o GPT-4V em fases. Portanto, mesmo que você tenha uma assinatura paga, talvez ainda não tenha acesso a ela.