FalconLMオープンソース言語モデルは、MetaのLLaMAよりも優れたパフォーマンスを提供し、商用利用も可能です。ただし、商用利用は収益が100万米ドルを超えた場合、ロイヤリティ支払いの対象となる。

FalconLMは、アラブ首長国連邦のアブダビにあるTechnology Innovation Institute(TII)によって開発されている。同組織は、FalconLMはこれまでで最も強力なオープンソース言語モデルであると主張しているが、最大のバリエーションである400億のパラメータは、650億のパラメータを持つMetaのLLaMAよりもかなり小さい。

様々なベンチマークの結果をまとめたHugging Face OpenLLM Leaderboardでは、2つの最も大きなFalconLMモデル(そのうちの1つはインストラクションで改良されている)が、現在、大きな差をつけて上位2位を占めている。TIIは70億パラメータモデルも提供している。

leaderboard do hugginface

FalconLMはGPT-3よりも効率的にトレーニングする

開発チームによれば、FalconLMの競争優位性の重要な側面は、訓練用データの選択にある。言語モデルは訓練中のデータの質に敏感である。

研究チームは、よく知られたCommon Crawlデータセットから高品質のデータを抽出し、重複を除去するプロセスを開発した。この徹底的なクリーニングにもかかわらず、強力な言語モデルを訓練するのに十分な5兆個のテキスト断片(トークン)が残った。コンテキスト・ウィンドウは2048トークンで、ChatGPTレベルのすぐ下だ。

treinamento do falconlm
研究チームの目標は、RefinedWebデータセットを活用し、コモンクロールから最高品質のオリジナルデータのみをフィルタリングすることだ。 画像:TII

400億個のパラメータを持つFalconLMは1兆個のトークンで訓練され、70億個のパラメータを持つモデルは1.5兆個のトークンで訓練された。RefinedWebデータセットのデータは、科学論文やソーシャルメディア上の議論から「いくつか」選択されたデータセットで強化された。最もパフォーマンスの良いチャットボット・バージョンは、Baizeデータセットを使って改良された。

TIIは、パフォーマンスと効率を最適化したアーキテクチャについても言及しているが、詳細は明らかにしていない。論文はまだ公開されていない。

研究チームによると、最適化されたアーキテクチャと高品質のデータセットが組み合わさった結果、FalconLMは学習時にGPT-3の75の計算量しか必要としなかったが、旧来のOpenAIモデルを大幅に上回った。推論コストはGPT-3の5分の1と言われている。

オープンソースとして利用可能だが、商用利用は高価になる可能性がある。

FalconLMのTIIユースケースには、テキスト生成、複雑な問題の解決、パーソナルチャットボットとしての利用、あるいはカスタマーサービスや翻訳といった商業分野での利用が含まれる。

しかし、商用利用においては、TIIは言語モデルに起因する100万ドルの収益から利益を得たいと考えている。商業利用に興味のある方は、TIIの営業部門までご連絡ください。個人的な使用や研究については、ファルコンLMは無料です。

ファルコンLMモデルのすべてのバージョンは、Huggingfaceで無料でダウンロードできます。モデルとともに、チームは6,000億のテキストトークンを含む「RefinedWeb」データセットの一部もApache 2.0ライセンスのもとオープンソースとして公開している。このデータセットには、リンクや画像の代替テキストがすでに含まれているため、マルチモーダルな拡張も可能だという。