偉大なる言語モデルは私たちと同じように言葉を理解するのか?心理学者と認知科学者が調査する。

非常にパワフルで人気の高い人工知能言語システムGPT-3に、バーベキューの焚き火に紙地図と石とどちらを使うかと尋ねたところ、石を好んだ。

スカートのシワを伸ばすには、熱い魔法瓶とヘアピンのどちらを使うか?GPT-3はヘアピンを提案した。

また、ファーストフード店で働くために髪を隠す必要がある場合、紙製のサンドイッチの包み紙とハンバーガーのバンズ、どちらがより効果的だろうか?GPT-3はバンズを選んだ。

多くの人は別の選択肢を選ぶのに、なぜGPT-3はこのような選択をするのだろうか?GPT-3は人間のように言葉を理解しないからだ。

身体のない言葉

私たちの一人は心理学の研究者だが、20年以上前、当時のコンピューター言語モデルの理解力をテストするために、上のような一連のシナリオを提示したことがある。そのモデルは、石を使うか地図を使うかを正確に選択することができなかった。

もう一人は認知科学の博士課程の学生で、同じシナリオを使ってGPT-3をテストした研究チームの一員である。GPT-3は旧モデルよりは良かったが、人間よりはかなり悪かった。前述の3つのシナリオを完全に間違えていたのだ。

GPT-3は、ChatGPTの最初のローンチの原動力となったエンジンであり、1兆のインスタンスから、どの単語が他のどの単語の後に続く傾向があるかを観察することによって、言語について学習する。言語シーケンスの強い統計的規則性により、GPT-3は言語について多くを学ぶことができる。そして、この連続的な知識により、ChatGPTは一般的に妥当な文章、エッセイ、詩、コンピューター・コードを生成することができる。

GPT-3は人間の言語において、何が何に続くかというルールを学習するのは非常に得意だが、人間にとってこれらの単語が何を意味するかは全くわからない。どうしてそうなるのか?

人間は、物事を成し遂げるために物理的・社会的世界で活動する必要のある身体を持って進化した生物学的存在である。言語とは、そのための道具なのだ。GPT-3は、次の言葉を予測する人工的なソフトウェア・システムである。GPT-3は、現実世界ではこの予測を使って何かをする必要はない。

われあり、ゆえにわれ理解す

単語やフレーズの意味は、人間の身体と密接に関係している。つまり、人は行動し、知覚し、感情を持つことができる。人間の認知は、身体化されることによって強化される。例えば、「サンドイッチの包装紙」のような言葉に対する人々の理解には、その包装紙がどのように見えるか、どのように感じるか、どのような重さがあるか、そしてその結果、私たちがそれをどのように使うか、つまりサンドイッチを包むかも含まれる。また、サンドイッチを包むだけでなく、クシャクシャに丸めてフープゲームに使ったり、髪を覆ったりと、数え切れないほどの使い道がある。

紙を折ることができる手、サンドイッチの包み紙とほぼ同じ大きさの頭髪、そして雇用される必要性、したがって髪を隠すといったルールに従う必要性。言い換えれば、人は言語使用の統計では捉えられないような方法で物事を利用する方法を理解しているのである。

GPT-3、その後継であるGPT-4、そしてそのいとこであるBardChinchillaLLaMAは身体を持っていないため、どのオブジェクトが曲げられるか、あるいは心理学者J.J.ギブソンがアフォーダンスと呼ぶ他の多くの特性を自分で判断することができない。人の手や腕があれば、紙地図は炎を扇ぎ、魔法瓶は皺を寄せる。

腕や手がなければ、ましてや仕事でシワのない服を着る必要がなければ、GPT-3はこれらのアフォーダンスを判断できない。GPT-3は、インターネット上の言葉の流れから似たようなものを見つけた場合のみ、それらを偽造することができる。

大規模な言語モデリングAIは、人間と同じように言語を理解できるのだろうか?私たちの考えでは、人間の身体、感覚、目的、生き方を持たなければ無理だ。

世界の感覚に向けて

GPT-4は、テキストだけでなく画像についても学習させ、単語とピクセルの統計的関係を学習できるようにした。現在、GPT-4は単語に割り当てる確率を出していないため、独自の分析はできないが、GPT-4に3つの質問をしたところ、正解した。これは、モデルが以前の入力から学習しているか、サイズが大きくなって視覚的入力が増えたためかもしれない。

しかし、モデルがおそらく遭遇したことのないような意外なアフォーダンスを持つ物体を考え、彼をつまずかせるために新しい例を作り続けることができる。例えば、GPT-4は、底が切り取られた電球よりも、底が切り取られたコップの方が水を入れるのに適していると言っている。

画像にアクセスできるモデルは、子供がテレビから言語や世界について学ぶようなものだろう。ラジオから学ぶよりは簡単だが、人間の理解には世界と対話する重要な機会が必要だ。

最近の研究では、言語モデルを訓練して物理シミュレーションを生成し、物理的環境と相互作用し、ロボットの行動計画さえ生成するというアプローチがとられている。具現化された言語を理解するのはまだ先のことかもしれないが、この種の多感覚インタラクティブ・プロジェクトは、そこに至る重要なステップである。

ChatGPTは魅力的なツールであり、間違いなく良い目的にもそうでない目的にも使われるだろう。しかし、あなたが吐き出した言葉を理解し、ましてや知覚があるなどと思ってはいけない。

情報源The ConversationThe Decoder