Os modelos multimodais podem reconhecer imagens e descrever seu conteúdo. Isso inclui imagens de pessoas, o que poderia ser problemático.

O New York Times relata que a OpenAI atualmente mascara os rostos em imagens e não permite que o GPT-4 as processe com reconhecimento de imagem.

Isso afeta particularmente as pessoas cegas, que estão usando o GPT-4 com aprimoramento de imagem no experimento “Be My Eyes” para obter descrições detalhadas do ambiente, assim como das pessoas. A descrição do ambiente ainda está disponível, mas a descrição das pessoas foi recentemente desativada e os rostos nas imagens estão borrados.

A OpenAI não quer que o GPT-4 seja usado indevidamente para reconhecimento facial

O GPT-4, com capacidades de imagem, pode reconhecer pessoas proeminentes, como o CEO da OpenAI, Sam Altman, de quem ele viu muitas imagens durante o treinamento em IA. O GPT-4 não reconhecerá pessoas que não apareçam em muitas imagens disponíveis na Internet.

Como resultado, suas capacidades de identificação e monitoramento estão longe de ser tão abrangentes quanto as dos sistemas de IA, como o Clearview AI ou o PimEyes, que são otimizados para esse cenário e podem identificar pessoas em imagens com base em detalhes minuciosos.

Além da identificação, a OpenAI enfrenta outros problemas ao analisar rostos: mesmo que a pessoa em uma imagem seja desconhecida, ela pode ser descrita e associada ao gênero ou estado emocional errado, por exemplo.

Com centenas de milhões de usuários, isso poderia resultar em inúmeras reclamações. Além disso, diz-se que a análise de imagem é suficientemente avançada para burlar sistemas de captcha comuns.

Misturas de identificação, em que o modelo identifica corretamente a função de uma pessoa como CEO, por exemplo, mas atribui o nome errado a essa função, também são possíveis, afirma Sandhini Agarwal, pesquisadora de políticas da OpenAI.

“Nós realmente queremos que isso seja uma conversa bidirecional com o público. Se o que ouvirmos for algo como ‘Na verdade, não queremos nada disso', estamos totalmente de acordo”, diz Agarwal.

A Microsoft e o Google também bloqueiam o reconhecimento facial

O chatbot Bard do Google também oferece análise de imagem. Atualmente, o Bard se recusa a fazer declarações sobre imagens de pessoas conhecidas e desconhecidas e exclui uma imagem enviada de uma pessoa sem fazer perguntas adicionais. Por outro lado, a busca visual do Google Lens reconhece uma imagem de Sam Altman e o identifica corretamente.

A Microsoft também está integrando a busca visual de imagens no Bing Chat. Após enviar uma imagem de uma pessoa, o Bing Chat indica que a imagem será borrada “por motivos de privacidade”. No entanto, o chatbot oferecerá recomendações sobre como encontrar a pessoa por meio do Google Images, mídias sociais ou TinEye.

Com conteúdo do The Decoder.