Los modelos multimodales pueden reconocer imágenes y describir su contenido. Esto incluye imágenes de personas, lo que podría ser problemático.

The New York Times informa de que actualmente OpenAI enmascara los rostros en las imágenes y no permite que GPT-4 los procese con reconocimiento de imágenes.

Esto afecta especialmente a las personas ciegas, que están utilizando GPT-4 con mejora de imagen en el experimento «Be My Eyes» para obtener descripciones detalladas del entorno, así como de las personas. La descripción del entorno sigue disponible, pero la de las personas se ha desactivado recientemente y las caras de las imágenes aparecen borrosas.

OpenAI no quiere que GPT-4 se utilice indebidamente para el reconocimiento facial

GPT-4, con capacidades de imagen, puede reconocer a personas destacadas, como el CEO de OpenAI, Sam Altman, del que vio muchas imágenes durante el entrenamiento de IA. GPT-4 no reconocerá a personas que no aparezcan en muchas imágenes disponibles en Internet.

En consecuencia, sus capacidades de identificación y seguimiento no son ni de lejos tan completas como las de sistemas de IA como Clearview AI o PimEyes, que están optimizados para este escenario y pueden identificar personas en imágenes basándose en detalles minúsculos.

Más allá de la identificación, OpenAI se enfrenta a otros problemas a la hora de analizar rostros: aunque la persona de una imagen sea desconocida, puede ser descrita y asociada con el género o el estado emocional equivocados, por ejemplo.

Con cientos de millones de usuarios, esto podría dar lugar a numerosas quejas. Además, se dice que el análisis de imágenes es lo suficientemente avanzado como para eludir los sistemas de captcha habituales.

La identificación mixta, en la que el modelo identifica correctamente el papel de una persona como CEO, por ejemplo, pero asigna el nombre equivocado a ese papel, también es posible, dice Sandhini Agarwal, investigador de políticas en OpenAI.

«Queremos que sea una conversación bidireccional con el público. Si lo que oímos es algo así como: ‘En realidad, no queremos nada de esto', nos parece muy bien», afirma Agarwal.

Microsoft y Google también bloquean el reconocimiento facial

El chatbot Bard de Google también ofrece análisis de imágenes. Actualmente, Bard se niega a hacer declaraciones sobre imágenes de personas conocidas y desconocidas, y borra la imagen enviada de una persona sin hacer preguntas adicionales. En cambio, la búsqueda visual Google Lens reconoce una imagen de Sam Altman y lo identifica correctamente.

Microsoft también está integrando la búsqueda visual de imágenes en Bing Chat. Tras enviar una imagen de una persona, Bing Chat indica que la imagen aparecerá borrosa «por motivos de privacidad». Sin embargo, el chatbot ofrecerá recomendaciones sobre cómo encontrar a la persona a través de Google Imágenes, las redes sociales o TinEye.

Con contenido de The Decoder.