ヨーロッパへの出張の一環として、OpenAIのCEO Sam AltmanはOpenAIのロードマップに関する最新情報を発表した。

Altman氏によると、コンピューティングパワーの不足がOpenAIの短期的な計画を遅らせ、OpenAIのAPIの信頼性に関する顧客からの苦情につながっている。

GPUの不足は、モデルを微調整するためのAPIも制限しているという。OpenAIは、オープンソースコミュニティにとって非常に有用であった低ランク適応(LoRA)のような、より効率的な微調整手法をまだ利用していない。

GPT-4の32Kコンテキストウィンドウ版も、計算能力不足のためまだ導入できず、10万米ドル以上の予算を持つプライベートモデルへのアクセスも限られている。それでもアルトマンは、今年後半には最大100万トークンのコンテキスト・ウィンドウが可能になると考えている。

アルトマンによれば、それ以上の進歩には、トランスフォーマーモデルの注目度に関する「O(n^2)」スケーリング問題を解決する必要がある。コンテキストウィンドウのサイズを2倍にすると計算量は4倍になり、3倍にすると計算量は9倍になる。アルトマンによれば、この問題を解決するには科学的なブレークスルーが必要だという。

GPT-4のコスト削減

GPT-4の計算コストの削減は、OpenAIの最優先課題である。すでにGPT-3からGPT-3.5、ChatGPTへの移行で、オープンAIは計算コストを大幅に削減することができた。これはAPIコストの大幅な削減を通じて顧客に還元されています。

最新モデルは、微調整APIを通じて年内に利用可能になるはずです。また、以前の会話を記憶することができる新しいAPIも提供されるため、APIコールのたびに再度送信する必要はありません。これにより、さらにコストを削減できるだろう。

一方、ChatGPTプラグインはおそらくAPIに含まれないだろうとアルトマンは言う。彼は、ChatGPTの中にアプリがあるよりも、アプリの中にChatGPTがある方が面白いと考えている。アルトマンによれば、ナビゲーション以外のプラグインは、まだ適切な市場に適合していない。

この文脈でアルトマンは、OpenAIは開発者コミュニティと競合しないことを好むため、ChatGPT以外の製品をリリースする予定はないと断言しています。ChatGPTのビジョンは、OpenAIのAPIを最適化し、インテリジェントなアシスタントを提供することだ。言語モデルには、OpenAIが対応しない他の多くのアプリケーションがあります。

マルチモーダルモードは2024年までには登場しない

来年、マルチモーダリティがOpenAIのアジェンダになる。マルチモーダリティとは、AIモデルがテキストだけでなく画像も処理できることを意味し、将来的には音声や動画、3Dモデルも処理できるようになるかもしれない。

OpenAIはすでにGPT-4リリースで、モデルが原理的に画像を処理できること、つまり画像に基づいてテキストやコードを生成できることを実証している。しかし、先に述べたGPUの制限のため、この機能は現時点では利用できません。

OpenAIがマルチモーダルモデルの追加に取り組んでいるかどうかは不明です。アルトマンによると、GPT-5ではさらにマルチモーダリティが追加される見込みだが、今後6ヶ月間はトレーニングに入ることはないという。そのため、Google DeepmindはGeminiモデルでマルチモダリティを先取りする可能性がある。

アルトマン氏はまた、「巨大なAIモデルの時代の終わり」についての最近の発言についてもコメントし、OpenAIはより大きなモデルを訓練する努力を続け、規模の法則はまだ適用される、すなわち、より大きなモデルはより良いパフォーマンスを約束すると述べた。しかし、モデルのサイズが毎年2倍や3倍になることはないだろう。デコーダーからのコンテンツ