英国のAI企業Stability AIは、StableDiffusion AIのイメージで知られている。StableLMでは、オープンソースの言語モデルシリーズを発表している。
StableLM-Alphaは現在、30億パラメーターと70億パラメーターの2つのサイズで利用可能だ。150億から650億のパラメータを持つ、より大きなテンプレートも提供される予定だ。
これらのモデルはCreative Commons CCBY-SA-4.0ライセンスの下でライセンスされているため、Stability AIを参照する限り、商用利用が可能です。モデルは研究目的で公開されている。
StableLMは、他の多くのオープンソースの言語モデルと同様、EleutherAIの「The Pile」データセットをベースにしているが、Stability AIによると、「実験的」バージョンでは、1.5兆トークンと以前より3倍大きくなっているという。同スタートアップは、このデータセットの詳細を「追って」提供したいとしている。
Stability AIは現在、Stable DiffusionをめぐってGetty Imagesと法廷闘争を繰り広げている。Stable DiffusionはGetty Imagesのデータベースから明示的な許可なく画像をスクレイピングしたもので、おそらくこれがデータセットについて透明性を保つことに消極的な理由か、あるいは現在の競争環境なのだろう。Stability AIは新たな資金を探しているようだ。
パラメータは少ないが良いデータ
パラメータ数が少ない(30億と70億)にもかかわらず、StableLM-Alphaは「驚くほど良いパフォーマンス」を示すとStability AIは書いている。言語モデルの質の高さは「データセットの豊富さ」に起因しているが、ベンチマークは公表していないという。
StableLM-Alphaのコンテキストウィンドウ、つまり言語モデルが応答に対して同時に考慮できる文と単語の構成要素(トークン)の数は4096個で、これはGPT-3ベースのChatGPTのレベルである。
30億トークンと70億トークンのStableLMアルファモデルは、現在Githubで利用可能です。150億、300億、650億のパラメータを持つモデルは、技術文書とトレーニング・パラメータとともに後に続くはずです。1750億パラメータのGPT-3サイズのモデルも計画されている。
StableLM-Alphaを補完するものとして、Stability AIはAlpaca式に従って調整されたインストラクションモデルをリリースしている。安定性AIは、Alpaca、GPT4All、Dolly、ShareGPT、HHの5つのデータセットを組み合わせて使用する。
これらのモデルは “StableLM-Tuned-Alpha “として公開される予定だが、あくまで研究目的であり、商用利用はできない(CC BY-NC-SA 4.0)。7B-TunedモデルのデモはHuggingFaceで公開されている。
Stability AIはまた、AIアシスタントに特化したオープンソースのRLHFベースのデータセットのプログラムも発表しており、OpenAssistantコミュニティなどのパートナーと協力する予定だ。このデータセットがあれば、StableLM-Alphaモデルに手を加えて商業利用が可能になる可能性がある。現在、StableLM-Tuned-Alphaの学習プロセスでは、ChatGPTによって生成されたテキストを使用しているため、このようなことはできません。商用利用はOpenAIの規約に違反します。
Stable Diffusionは画像生成オープンソースAIのマイルストーンであり、現在もそうであるが、Stability AIは言語モデルで同様の成功を収めるには苦しい戦いを強いられるかもしれない。