OpenAIがGPT-4でAIの仕組みを説明できるかテスト

最近の記事で、OpenAIは人工知能が大規模な言語モデルの内部構造を解釈するのに役立つことを示した。研究チームはGPT-4を使って、その古い前身であるGPT-2のニューロンの説明を生成し、評価した。この研究はOpenAIのアライメント研究の一環であり、AIシステムの挙動をより良く理解し、導くことを目的としている。

OpenAIの方法論には3つの段階がある:

  • GPT-4による説明の生成:GPT-2のニューロンから開始し、GPT-4は関連するテキストシーケンスと活性化を表示することで、その行動の説明を生成します。
  • GPT-4によるシミュレーション:GPT-4は、生成された説明に対して発火するニューロンが何をするかをシミュレートします。
  • 比較:生成された説明は、シミュレートされた活性がGPT-2ニューロンの実際の活性とどの程度一致するかによって評価されます。

プロセスの最後には、「映画、キャラクター、エンターテイメントに言及するときに発火する」など、GPT-2ニューロンの機能を自然言語で説明します。

OpenAIのGPT-4は、GPT-2の説明において人間よりも劣っている。

研究チームは、説明する言語モデルが大きければ大きいほど、この方法はうまくいかないことを発見した。その理由のひとつは、後の層のニューロンは説明が難しいからかもしれない。しかし研究チームは、繰り返し説明などのアプローチを用いることで、生成される説明をある程度改善することに成功した。また、GPT-4は、より小さなモデルよりは良い説明を提供するが、それでも人間よりは悪い。

研究チームは、GPT-4を用いて、GPT-2に含まれる307,200個のニューロンすべてに対する説明を作成した。OpenAIによると、GPT-4を使ってニューロンの活性化挙動の大部分を説明できたことになる。

OpenAIによると、この方法論には、複雑なニューロン行動や活性化の下流効果を説明できないなど、多くの問題がある。さらに、すべてのニューロンに対して自然言語による説明が可能かどうかは疑問であり、このアプローチではGPT-2ニューロンの挙動について機械論的な説明ができないため、「理解が誤って一般化される可能性がある」という。

OpenAIのアライメント研究はAIアシスタントに依存している

研究の目的は、言語モデルが整合しているかどうかをチェックするために同社が使用する予定の自動解釈可能性メソッドを作成することである。特に重要なのは、ゴールの汎化が不十分であったり、誤解を招くようなアライメントの例を検出することである。これを検出するには、内部動作を深く理解する必要がある。

OpenAIの研究では、より強力なモデルを使ってより弱いモデルを説明している。アシスタント自体が信頼できるかどうかが明確でない場合、これは問題を引き起こす可能性がある。”我々は、より小さく信頼性の高いモデルをアシスタントに使用することで、完全な解釈可能性監査にスケールアップすること、あるいは解釈可能性に適用することで、モデルがどのように機能するかについて十分に学ぶことができ、より堅牢な監査手法の開発に役立つことを期待している。”

OpenAIは、データセットとコード、そしてすべてのGPT-2ニューロンの可視化ツールを公開した。同社は、アライメント研究におけるより良い方法論の開発を促進したいと考えている。