マルチモーダルモデルは画像を認識し、その内容を記述することができる。これには人物の画像も含まれるが、問題となる可能性がある。

ニューヨーク・タイムズ紙によると、OpenAIは現在、画像中の顔をマスクしており、GPT-4が画像認識で処理することを許可していない。

これは特に目の不自由な人に影響する。「Be My Eyes」実験では、GPT-4と画像拡張を併用し、人物だけでなく環境の詳細な説明を得ている。環境の描写はまだ利用可能ですが、人物の描写は最近無効になり、画像の中の顔はぼやけています。

OpenAIはGPT-4が顔認識に悪用されることを望んでいない

画像処理機能を持つGPT-4は、OpenAIのCEOであるサム・アルトマンのような著名人を認識することができ、彼はAIのトレーニング中に多くの画像を見た。GPT-4は、インターネット上にある多くの画像に写っていない人物は認識しない。

その結果、GPT-4の識別と監視能力は、このシナリオに最適化され、微細なディテールに基づき画像内の人物を識別できるClearview AIやPimEyesのようなAIシステムには到底及ばない。

OpenAIが顔を分析する際に直面する問題は、識別にとどまらない。例えば、画像に写っている人物が不明であっても、間違った性別や感情の状態に関連付けられてしまう可能性がある。

何億人ものユーザーがいるため、多数の苦情が寄せられる可能性がある。さらに、画像解析は一般的なキャプチャシステムを回避できるほど高度なものだと言われている。

例えば、ある人物の役割がCEOであることは正しく認識されるものの、その役割に間違った名前を割り当ててしまうような、本人確認のミステイクも起こり得ると、OpenAIの政策研究者であるサンディニ・アガーワルは言う。

「私たちは、これを一般市民との双方向の会話にしたいと考えています。もし、『実は、私たちはこのようなことは望んでいない』というような話が聞けたとしても、私たちはまったく構わない」とアガーワルは言う。

マイクロソフトとグーグルも顔認識をブロック

グーグルのBardチャットボットも画像解析を提供している。現在、Bardは既知および未知の人物の画像に関する発言を拒否し、追加質問をすることなく、送信された人物の画像を削除する。一方、Google Lensの視覚検索はサム・アルトマンの画像を認識し、彼を正しく識別する。

マイクロソフトもビングチャットにビジュアル画像検索を組み込んでいる。人物の画像を送信すると、Bing Chatは「プライバシー保護のため」画像がぼかされることを示す。しかし、チャットボットは、Google画像、ソーシャルメディア、TinEyeを通じて人物を見つける方法を提案する。

The Decoderからのコンテンツです。