優れた言語モデルは人間のおしゃべりを模倣するが、科学者たちは彼らの推論能力については意見が分かれる。

世界最高の人工知能(AI)システムは、難しい試験に合格し、説得力のある人間的なエッセイを書き、流暢に会話することができる。何ができないのか?簡単な視覚的論理パズルを解くことだ。

画面上に並べられた一連のカラーブロックからなるテストでは、ほとんどの人が接続パターンを識別できる。しかし、GPT-4は、チャットボットChatGPTや検索エンジンBingを支えるAIシステムの進化版であり、今年5月に研究者によって発表されたレポートによれば、あるパターンのカテゴリーではパズルの約3分の1しか正解できず、別のカテゴリーでは約3%しか正解できない。

このロジックパズルの開発チームは、AIシステムの能力をテストするためのより良いベンチマークを提供し、GPT-4のような大規模な言語モデルに関するジレンマに対処することを目的としている。ある方法でテストすると、GPT-4はかつて人工知能のマイルストーンと考えられていたタスクを簡単にクリアしてしまう。別の方法でテストすると、大きな盲点や抽象的な概念についての推論ができないなど、あまり印象的ではないようだ。

「AI分野の人々は、これらのシステムを評価するのに苦労しています」と、ニューメキシコ州にあるサンタフェ研究所のコンピューター科学者、メラニー・ミッチェルは言う。

過去2、3年の間に、大規模言語モデル(LLM)は、様々なタスクにおける能力において、これまでのAIシステムをはるかに凌駕するようになった。LLMは、何十億ものオンライン文章に含まれる単語間の統計的相関関係に基づいて、入力された文章から次の単語を生成する。LLMをベースに構築されたチャットボットには、さらに別の要素がある。人間のトレーナーが、ボットがどのように反応するかを微調整するために、広範なフィードバックを提供しているのだ。

驚くべきは、人間の言語の膨大なデータベースで訓練された、このオートコンプリートのようなアルゴリズムから生まれる能力の幅広さだ。他のAIシステムは、どのようなタスクでもLLMを上回ることができるが、特定の問題に関連するデータで訓練する必要があり、あるタスクから別のタスクに汎化することはできない。

マサチューセッツ州ケンブリッジにあるハーバード大学の認知科学者、トマー・ウルマン氏は、LLMの表面下で何が起こっているのかについて、大まかに言って2つの研究グループの意見は対立していると言う。ある者はアルゴリズムの成果を推論や理解のヒントに求める。しかし、彼自身やミッチェルのような研究者を含め、もっと慎重な意見もある。

「この議論の両側には、非常に賢い人々がいます」とウルマン氏は言う。その理由は、どちらの意見も支持する決定的な証拠がないことだと彼は言う。ガイガーカウンターのように、何かを指さして “ピーピーピー、賢い “と言えるようなものはありません」とウルマン氏は付け加える。

人間とAIシステムの能力の違いを明らかにする論理パズルのようなテストは、正しい方向への一歩だと、両者の研究者は言う。ニューヨーク大学の認知コンピューター科学者であるブレンデン・レイクは、このようなベンチマークは、現在の機械学習システムに欠けているものを示し、人間の知性の要素を解き明かすのにも役立つと言う。

LLMをどのようにテストするのが最適なのか、そしてそのテストが何を示すのか、という研究にも実用的なポイントがある。医学から法律まで、LLMを実社会に応用するには、LLMの能力の限界を理解することが重要だとミッチェルは言う。「LLMに何ができて、どこで失敗するのかを理解する必要がある。

チューリングテストは死んだのか?

人工知能のテストとして最も有名なのは、チューリング・テストである。チューリング・テストは、コンピューターがまだ黎明期であった1950年に、イギリスの数学者でありコンピューター界の著名人であるアラン・チューリングによって提案された。チューリングは「模倣ゲーム2」と呼ばれる評価を提案した。このシナリオでは、人間の審査員が、隠れたコンピューターと見えない人間と短いテキストベースの会話を行う。裁判官は、どちらがコンピュータであるかを確実に見抜くことができるだろうか?これは「機械は考えることができるか」に相当する問題だとチューリングは示唆した。

チューリングはシナリオの詳細をあまり明記していないため、正確なルールはないとミッチェルは指摘する。「ワシントン州シアトルを拠点とするグーグルのソフトウェア・エンジニア、フランソワ・チョレは言う。「チューリングは、実際にマシンで実行するような文字通りのテストを意図していたわけではありません。

teste de turing
クレジット:Geopix/Alamy

しかし、言語を使って機械に思考能力があるかどうかを検出するというアイデアは根強く残っている。実業家で慈善家のヒュー・ローブナーは数十年にわたり、ローブナー賞として知られるチューリングテストのイベントに毎年資金を提供してきた。人間の審査員が、機械と人間とのテキストベースの対話に参加し、どちらがどちらかを当てようとしたのだ。しかし、コンピュータ科学者のロブ・ワルサムによれば、ローブナーが他界し、継続するための資金が底をついたため、このような年次集会は2019年以降に廃止された。彼は、2014年からローブナーの名前で大会を主催していた英国人工知能・行動シミュレーション研究学会の共同ディレクターである。ウォルサムは、LLMがこのようなコンテストで人間を欺くチャンスは十分にあると主張している。

他の研究者も、GPT-4や他のLLMは、少なくとも短い会話では多くの人を騙すことができるため、チューリング・テストの一般的な概念におそらく合格するだろうという意見に同意している。月、イスラエルのテルアビブにあるAI21研究所の研究者たちは、チューリング・テストに基づいたオンライン・ゲームを150万人以上がプレイしたと報告した。プレイヤーは2分間、他のプレイヤーか、人間のように振る舞うLLMを搭載したボットとチャットすることになった。プレイヤーがボットを正しく識別できたのはわずか60回であり、これは偶然の産物よりはるかに劣っていると研究者たちは指摘している。

LLMに精通した研究者なら、おそらくまだ勝てるだろう。しかし、チョレ氏は、これらのシステムの既知の弱点を利用すれば、LLMを見破るのは簡単だと言う。今、私はLLMと話をしているのか』と聞かれたら、間違いなく分かります」とチョレ氏は言う。

重要なのは、LLMをコンフォートゾーンから解き放つことだと彼は言う。LLMがトレーニングデータで何度も見てきたシナリオのバリエーションを提示することを提案する。多くの場合、LLMは新しいシナリオに対して正しい答えを出すのではなく、訓練データの元の質問に関連した単語を出すことで反応する。

しかし、チョレ氏らは、コンピュータサイエンスの目標として欺瞞中心のテストを使うことには懐疑的だ。「陪審員を騙そうとすることです」とチョレは言う。このテストは、チャットボット開発者に、便利で面白い機能を開発するのではなく、AIにトリックを実行させるインセンティブを与える。

ベンチマークの危険性

チューリングテストの代わりに、研究者はしばしば、言語能力、常識的な推論、数学的能力など、特定の能力に関する性能を評価することを目的としたベンチマークを使ってAIシステムを評価する。また、人間を対象とした学力試験や専門試験を利用するチームも増えている。

GPT-4が今年3月に発表されたとき、これを開発したカリフォルニア州サンフランシスコのOpenAI社は、読解力、数学、コーディングなど、機械用に設計されたさまざまなベンチマークでその性能をテストした。オープンエイの報告によれば、GPT-4はそのほとんどで非常に良い結果を出した。さらに同社は、アドバンスト・プレイスメントとして知られる米国の高校生向けにデザインされたいくつかの科目別試験、米国の医師の現在の臨床知識を評価する試験、GREと呼ばれる米国の大学院の選考過程で使用される標準化された試験など、約30の試験にもGPT-4を適用した。OpenAIによると、米国の多くの州で弁護士資格試験の一部となっている統一弁護士資格試験において、GPT-4は人間と比較して上位10パーセントに入るスコアを獲得した(「AIシステムのパフォーマンス – 選択された結果」を参照)。

AIシステムの性能 – 一部の結果

テストGPT-4GPT3.5特別に訓練されたAI
統一司法試験298/400(~90パーセンタイル*)213/400(~10パーセンタイル)該当なし
医学知識自己評価プログラム75%53%該当なし
卒業試験定量163/170(~80パーセンタイル)147/170(~25パーセンタイル)該当なし
HellaSwag:常識的推論(機械用に設計されたテスト)95.3%85.5%85.6%
DROP:読解力・理解力(マシン用ベンチマーク)80.9%64.1%88.4%
GSM-8K:小学校レベルの算数問題8,000問のデータセット(マシン用)92%57.1%87.3%
出典:OpenAI/参考文献4。
*パーセンタイルの値は、このスコアを達成した人間によるテストのものである。

「これらの言語モデルの多くは、これらのベンチマークで本当に良い結果を出すことができます」とミッチェルは言う。「しかし、多くの場合、これらの一般的な能力において人間を上回ったという結論ではなく、ベンチマークが限定的であるという結論になる。研究者たちが挙げた1つの課題は、モデルが非常に多くのテキストで訓練されているため、訓練データで似たような質問を見たことがあり、実際にはただ答えを探しているだけかもしれないということだ。この問題はコンタミネーションとして知られている。

OpenAIによると、問題とトレーニングデータで似たような単語の並びを探すことで、この問題をチェックしたという。似たような単語を削除する前と後でLLMをテストしたところ、パフォーマンスにはほとんど差がなかった。しかし、このテストが十分に厳密かどうか疑問視する研究者もいる。

ニューヨーク大学の言語技術科学者で、サンフランシスコのAI企業Anthropicでも働くサム・ボウマンは、GPT-4の成績を単に暗記の結果だと割り切ってしまうことに注意を促している。この汚染は「主張を少し複雑にしますが、全体像を大きく変えるとは思いません」と彼は言う。

研究者たちはまた、LLMの試験問題での成功は脆弱なもので、実世界の例を正しく理解するのに必要な強固な能力には結びつかないかもしれないとも指摘している。試験問題を少し変えて不合格にすることは可能だとミッチェル氏は言う。例えば、ChatGPTが経営学修士課程の学生を対象に実施した試験から問題を取り出し、少し言葉を変えてみた。その問題に答えられる人なら、言い直したバージョンにも答えられるはずだ。しかし、ChatGPTは失敗した。

そして、ベンチマークの意味の解釈には深い問題がある。曖昧な概念だが、ある定義によれば、一般知能とは、さまざまな仕事をうまくこなし、異なる文脈に適応する能力を指す。つまり、試験で好成績を収めた人は、一般的に他の認知テストでも好成績を収め、ある抽象的な概念を把握していると考えられるかもしれない。しかし、LLMの場合は決してそうではない。LLMは人間とは全く異なる機能を持っているのだ、とミッチェルは言う。「私たちが人間に対して行っているような外挿は、AIシステムには必ずしも通用しません」と彼女は言う。

これは、LLMが言語からしか学習しないからかもしれない。物理的な世界に組み込まれていないLLMは、人間のように言語と物体、性質、感情とのつながりを体験していないのだ。彼の見解では、LLMは現在、「真の理解なしに非常に流暢な言語を操ることができる」ことを示している。

一方、LLMは人間にはない能力も持っている。たとえば、人間がこれまでに書いたほとんどすべての単語のつながりを知る能力などだ。これによって、必ずしも一般化されることなく、言語の癖やその他の指標を頼りに問題を解決することが可能になる、とミッチェルは言う。

オープンAIの研究者ニック・ライダーは、テストの成績が、同じ点数を取った人と同じように一般化されるとは限らないことに同意する。「人間の評価と大規模な言語モデルの評価を見て、同等性を導き出すべきではないと思います」と彼は言う。OpenAIのスコアは、人間のような能力や人間のような推論を示すものではありません。そのタスクでモデルがどのように機能するかを示すものです」。

研究者たちはまた、従来のマシンベンチマークや人間による試験よりも包括的にLLMを調査している。3月、ワシントン州レドモンドにあるマイクロソフト・リサーチのセバスチャン・ブベック(Sébastien Bubeck)らは、『人工一般知能の火花:GPT-4の初期実験』と題する予備論文を発表し、センセーションを巻き起こした。GPT-4の初期バージョンを使って、彼らは様々な驚くべき能力を記録した。注目すべき成果のひとつは、心理学者が心の理論を評価するために用いるテストに合格したことである。「GPT-4の能力の広さと深さを考えると、(まだ未完成ではあるが)人工知能(AGI)システムの初期バージョンと見るのが妥当であろう」と彼らは書いている。

それでも、BubeckがNature誌に明言しているように、「GPT-4は確かに人間のようには考えず、GPT-4が示すどのような能力も、GPT-4独自の方法で達成している」のである。

挑発的ではあるが、この報告書はLLMの能力を体系的に調査したものではないとミッチェルは言う。「むしろ人類学に近い」と彼女は言う。ウルマンによれば、機械が心の理論を持っていると確信するには、単に機械が人と同じ反応を示すというだけでなく、その根底にある認知プロセスが人間の心の理論と一致するという証拠を見る必要があるという。

LLMの長所と短所を発見するには、より広範で厳密な監査が必要だとAI研究者は言う。カラフルなロジックパズルはその候補になるかもしれない。

新しいパズル

LLMが爆発的に普及する前の2019年、ショレは「抽象化と推論コーパス(ARC)」と呼ばれるAIシステム用の新しいタイプの論理テストを作成し、オンラインで公開した。解答者は、正方形のグリッドが別のパターンに変化する様々な視覚的デモンストレーションを見て、次のグリッドがどのように変化するかを示しながら、変化の根本的なルールを理解したことを示す。「これは、見たことのないものに適応する能力をテストするものです」とチョレは言う。

ARCは「人間の知性の特徴」を捉えている、とレイクは言う。日常的な知識から抽象化を行い、それを以前には見られなかった問題に応用する能力である。

ショレは、LLMがまだそれほど普及していなかった2020年に、ボットを対象としたARCコンペを開催した。優勝したボットは、ARCのような課題を解くために特別に訓練されたAIシステムだったが、LLMとは異なり、一般的な能力は持っていなかった。一方、人間はARCの問題を80%の確率で正解する。現在、LLMの能力をテストするために、いくつかの研究チームがARCを使用している。

ミッチェルと彼の同僚たちは、ARCにヒントを得て、ConceptARCと呼ばれる新しいパズルを作成したが、2つの重要な違いがある。ConceptARCのテストはより簡単である。ミッチェルのチームは、ベンチマークがどんなに小さくてもマシンの能力の進歩を捉え損なわないようにしたかったのだ。もう1つの違いは、チームがテストする特定のコンセプトを選び、各コンセプトごとにテーマのバリエーションとなる一連のパズルを作成したことだ。

例えば、「等しい」という概念をテストするために、あるパズルでは、解答者が同じ形をしたオブジェクトをパターン内に保持することを要求し、別のパズルでは、同じ軸に沿って整列したオブジェクトを保持することを要求する。この目的は、AIシステムが概念を理解せずにテストに合格する可能性を減らすことである(「機械に打ち勝つ抽象的思考テスト」を参照)。

成績不振が意味するもの

研究者たちはGPT-4にConceptARCのタスクを投入し、400人がオンラインで登録した。GPT-4の成績は、1つのグループで33点、その他のグループでは30点以下だった。

「GPT-4は、あるグループでは33m、他のグループでは30m以下であった。「とミッチェルは言う。「GPT-4がいくつかの問題を解くことができたのは驚きでした。

LLMのような一般的なスキルシステムではなく、ARCのようなビジュアルパズルを解くように設計されていた。全体的に、GPT-4よりは成績が良かったが、人間よりは悪かった。トップパフォーマーは、あるカテゴリーで77mを記録したが、ほとんどのカテゴリーでは60%以下だった1。

しかしボウマンは、GPT-4がConceptARCを苦手としたからといって、GPT-4が根本的な抽象的推論能力を欠いている証明にはならないと主張している。同氏によれば、ConceptARCはGPT-4にとって不利であり、とりわけ視覚テストであることがその理由だという。「これらのモデルがこの種の推論に非常に長けていると仮定しても、この実験がうまくいくとは思えません」と彼は言う。

テストの実施方法に制限があるため、GPT-4では難しかったのだろう。公開されているLLMのバージョンは入力としてテキストしか受け付けないため、研究者たちは画像を表す数字の配列をGPT-4に提供した(例えば、空白のピクセルは0、色のついた正方形は数字となる)。一方、人間の参加者は単に画像を見ただけだった。「ミッチェルは言う。「我々は、高度に発達した視覚システムを持つ人間と、言語のみのシステムを比較しているのです。「ですから、まったく公平な比較とは言えないかもしれません」。

オープンAIは、画像を入力として受け付けることのできるGPT-4の『マルチモーダル』バージョンを作成した。ミッチェルと彼女のチームは、ConceptARCをテストするために、このGPT-4が公開されることを望んでいる。「これらのシステムが、人間の持つような抽象的な概念や推論能力を持っているとは思えません」と彼女は言う。

ケンブリッジにあるマサチューセッツ工科大学の計算認知科学者、サム・アッカビバも同意見だ。「私はショックを受けています」と彼は言う。彼は、別の研究チームが1D-ARCと呼ばれるベンチマークでGPT-4をテストしたことを指摘している。これによって、不公平感がある程度解消されるはずだという。GPT-4の性能は向上したが、LLMが基礎となるルールを確実に理解し、それについて推論していることを示唆するには十分ではなかった、とアックアビバ氏は言う。

推論を支持する論拠

ボウマンは、LLMが抽象的な概念について推論する少なくとも初歩的な能力を獲得していることを示唆する他の実験例を挙げている。その一例として、ハーバード大学のコンピューター科学者ケネス・リーと彼の同僚は、2人のプレーヤーが8×8のマス目に黒と白のディスクを配置して競うボードゲーム・オセロのデジタル版を使用した。彼らの目的は、LLMがテキストを生成するのに、記憶した言語の表面的な統計に頼っているのか、それとも人間と同じように世界の内部表現を構築しているのかを調べることだった。

LLMにプレーヤーが打った手のリストを与えて訓練したところ、LLMは次の合法的な手を正確に提案するのが非常にうまくなった。研究者たちは、LLMが単にテキストによる提案ではなく、碁盤の状態を追跡し、その表現を使って手を提案しているという証拠を得たと主張した9。

ボーマンは、LLMの推論能力は一般的に「つぎはぎ的」で、人間よりも限定的であると認識している。「これらのシステムは、我々が望むような信頼性や一般性にはほど遠い。「しかし、基本的な能力はあると信じています」。

ボウマン、ミッチェル、そして他の研究者たちの意見が一致しているのは、LLMの抽象的推論能力やその他の知能の兆候をテストする最良の方法は、未解決のままであるということである。カリフォルニア州スタンフォード大学の認知科学者、マイケル・フランクは、チューリング・テストの後継となる単一の包括的なテストが登場するとは考えていない。その代わり、研究者は様々なシステムの長所と短所を定量化するために多くのテストが必要だと考えている。「これらのエージェントは素晴らしいが、多くの点で失敗する。

ウォルサムは、AIシステムを理解しようとする人に一つのアドバイスをしている。「私たちは、知性を示すと思われるものを擬人化してしまいます。

「人間のモデルを使う以外の方法で、目標志向の行動を示すものを考えることができないのですから。「そして私たちは、この生物がこのような行動をとるのは、水面下で私たちと同じように考えているからだと想像しているのです」。

ネイチャー誌より