ChatGPTは4096個のトークンを読むことができるが、LongNetは10億個のトークンを読むことができる。これにより、Transformerモデルはウェブの一部全体を同時に処理することができる。
Transformerモデルにおけるシーケンスの長さは、トレーニングや特に展開において重要な役割を果たす。シーケンスの長さを長くすることで、例えば言語モデルがより多くのテキストを処理して生成したり、視覚変換器がより多くの情報を画像に取り込んだりできるような、広いコンテキストウィンドウが可能になる。
シーケンス長を長くする場合の大きな問題は、シーケンス長と必要な処理能力との関係が、標準的なトランスフォーマーアーキテクチャでは2次関数となり、必要な処理能力が急激に増大することである。
LongNetはChatGPTの25万倍のトークンを処理する。
OpenAIのChatGPTのコンテキストウィンドウは4,096トークンで、これは約3,000ワードに相当する。しかし、GPT-3.5-turboには約8,000トークンのバリエーションがあり、最大のGPT-4モデルには約32,000トークンがある。Claudeでは、Anthropicが約10万トークンの市販モデルを提供している。
マイクロソフトはLongNetで、リニアにスケールする方法を実証しており、チームによれば、ChatGPTの25万倍である10億トークンに達することができる。これはChatGPTの250,000倍の長さに相当し、約750,000,000ワードまたは2,000,000ページに相当する。
チームは、「拡張注意」と呼ばれる適応された注意メカニズムによって、この画期的な進歩を達成している。この場合、注意の配分はトークン間の距離が長くなるにつれて指数関数的に減少するため、ネットワークは標準的な注意メカニズムと同じ注意で近くのトークン間の関係を観察するが、より遠くのトークンにはより広い注意パターンを適用する。
LongNetはウェブサイズのデータセットを処理できる
あるテストでは、研究チームはLongNetを使って、最大32,000個のトークンを含む音声生成モデルを学習し、古典的な変換器に基づくアプローチと比較している。研究チームによると、LongNetは、古典的な変換モデルの既知のスケーリング法則を実証している。例えば、モデルが大きくなるにつれて、モデルの当惑度は減少する。
将来的には、LongNetによって、ウェブと同規模のデータセットを処理できるようになるかもしれない、と研究チームは述べている。また、コンテクスト・ウィンドウが大きいと、モデルの記憶領域と受容領域が広くなり、人間や世界との相互作用に関係する。より大きなコンテキストウィンドウには、モデルが学習データから探索できる、より複雑な因果関係や推論経路も含まれる。LongNetはまた、コンテキスト学習の限界を探ることも可能にしている。「非常に長いコンテキストは、モデルが壊滅的な忘却を軽減するのに役立つため、多くの例を用いた学習のパラダイムシフトとなる可能性がある」と研究チームは述べている。
今のところ、LongNetは概念実証に過ぎない
この論文には、GPT-4 32kのような最新の言語モデルとの比較や、精度や人間による評価といった真に意味のある指標が欠けている。この点で、LongNetは当初はフィージビリティ・スタディである。この巨大な配列長が本当の利点をもたらすかどうかは、今後の研究で明らかにする必要がある。
将来的には、大規模なマルチモーダル言語モデルやゲノムデータのモデリングなど、他の用途にもLongNetを使用する予定である。