OpenAIのGPT-4は、Mixture of Expertsアーキテクチャに基づき、1兆7600億のパラメータを持つと言われている。
GPT-4は8つのモデルに基づいており、それぞれが2200億のパラメータを持ち、MoE(Mixture of Experts)アーキテクチャで相互に接続されていると推測されている。この考え方は30年近く前からあるもので、グーグルのスイッチ・トランスフォーマーなど、大規模な言語モデルで使われてきた。
MoEモデルはアンサンブル学習の一種で、「エキスパート」と呼ばれるさまざまなモデルを組み合わせて判断を下す。MoEモデルでは、選択ネットワークが入力に基づいて各エキスパートの出力の重みを決定する。これにより、異なるエキスパートが入力空間の異なる部分に特化することができる。このアーキテクチャは、問題空間をより単純な部分空間に効果的に分割できるため、大規模で複雑なデータセットに特に有効である。
オープンAIからの公式声明はないが、この噂は信頼できると思われる。
GPT-4に関する情報は、自律走行スタートアップであるComma.aiの創設者、ジョージ・ホッツからのものだ。HotzはAIの専門家であり、ハッキングの過去でも知られている。彼はソニーのiPhoneとプレイステーション3のセキュリティを最初に破った人物だ。
他のAI専門家もホッツのツイッター・プロフィールにコメントし、彼の情報は真実である可能性が高いと述べている。
私も同じことを聞いたことがあるかもしれない😃 — このような情報は出回っているのだろうが、誰も大きな声では言いたくないのだろう。
– Soumith Chintala (@soumithchintala)2023年6月20日
GPT-4: 8 x 220Bのエキスパートが異なるデータ/タスク分布で訓練され、16イターの推論を行う。
Geohotが声を大にして言ってくれてうれしい。
とはいえ、現時点ではGPT-4は… https://t.co/mfsK7a6Bh7
オープンソースはGPT-4から何を学べるのか?
このアーキテクチャは、異なるチームがネットワークの異なる部分で作業できるようにすることで、GPT-4のトレーニングを簡素化したのかもしれない。これは、OpenAIがGPT-4のマルチモーダル機能を現在利用可能な製品とは別に開発し、別々にリリースできた理由も説明できるだろう。しかし、PyTorchの創設者の一人であるSoumith Chintalaが言及したように、GPT-4はより効率的な小型モデルに統合されたのではないかと推測されている。
Hotzはまた、GPT-4は1つの出力だけでなく、反復的に16の出力を生成し、反復するたびに改善されると推測している。
オープンソースコミュニティーは、このアーキテクチャーの複製を試みることができる。しかし、GPT-4は、適切な訓練データと必要な計算資源があれば、MoEアーキテクチャがどこまで可能かを示したのかもしれない。