Les modèles multimodaux peuvent reconnaître des images et décrire leur contenu. Cela inclut les images de personnes, ce qui pourrait être problématique.

Le New York Times rapporte qu’OpenAI masque actuellement les visages dans les images et ne permet pas à GPT-4 de les traiter avec la reconnaissance d’image.

Cela affecte particulièrement les personnes aveugles, qui utilisent GPT-4 avec l’amélioration de l’image dans l’expérience « Be My Eyes » pour obtenir des descriptions détaillées de l’environnement ainsi que des personnes. La description de l’environnement est toujours disponible, mais la description des personnes a récemment été désactivée et les visages dans les images sont flous.

L’OpenAI ne souhaite pas que le GPT-4 soit utilisé à mauvais escient pour la reconnaissance faciale

Grâce à ses capacités d’imagerie, GPT-4 peut reconnaître des personnalités, comme le PDG de l’OpenAI, Sam Altman, dont il a vu de nombreuses images au cours de l’entraînement à l’IA. Le GPT-4 ne reconnaîtra pas les personnes qui n’apparaissent pas dans les nombreuses images disponibles sur l’internet.

Par conséquent, ses capacités d’identification et de surveillance sont loin d’être aussi complètes que celles de systèmes d’IA tels que Clearview AI ou PimEyes, qui sont optimisés pour ce scénario et peuvent identifier des personnes sur des images en se basant sur de minuscules détails.

Au-delà de l’identification, OpenAI est confrontée à d’autres problèmes lors de l’analyse des visages : même si la personne figurant sur une image est inconnue, elle peut être décrite et associée au mauvais sexe ou au mauvais état émotionnel, par exemple.

Avec des centaines de millions d’utilisateurs, cela pourrait donner lieu à de nombreuses plaintes. En outre, l’analyse d’images serait suffisamment avancée pour contourner les systèmes captcha courants.

Sandhini Agarwal, chercheur en politique à l’OpenAI, explique que des confusions d’identification sont également possibles, lorsque le modèle identifie correctement le rôle d’une personne en tant que PDG, par exemple, mais attribue le mauvais nom à ce rôle.

« Nous voulons vraiment que ce soit une conversation à double sens avec le public. Si nous entendons quelque chose comme « En fait, nous ne voulons rien de tout cela », nous sommes tout à fait d’accord avec cela », déclare Mme Agarwal.

Microsoft et Google bloquent également la reconnaissance faciale

Le chatbot Bard de Google propose également l’analyse d’images. Actuellement, Bard refuse de se prononcer sur des images de personnes connues ou inconnues et supprime l’image envoyée d’une personne sans poser de questions supplémentaires. En revanche, la recherche visuelle Google Lens reconnaît une image de Sam Altman et l’identifie correctement.

Microsoft intègre également la recherche visuelle d’images dans Bing Chat. Après avoir envoyé l’image d’une personne, Bing Chat indique que l’image sera floue « pour des raisons de confidentialité ». Cependant, le chatbot proposera des recommandations sur la manière de trouver la personne via Google Images, les médias sociaux ou TinEye.

Avec le contenu de The Decoder.