水曜日、Stability AIはStableLMと呼ばれるオープンソースのAI言語モデルの新ファミリーを発表した。Stabilityは、2022年にリリースしたオープンソースの画像合成モデル「Stable Diffusion」の触媒効果を繰り返したいと考えている。StableLMは、改良を加えることで、ChatGPTに代わるオープンソースを構築するために使用することができる。

StableLMは現在GitHubでアルファ版として公開されており、モデルサイズは30億パラメーターと70億パラメーターで、150億パラメーターと650億パラメーターのモデルが公開される予定だとStability社は述べている。同社は、Creative CommonsBY-SA-4.0ライセンスのもとでモデルを公開している。

Stability AI Ltd.はロンドンを拠点とする企業で、OpenAIのオープンソースライバルと位置づけられている。OpenAIは、その「オープン」という名前にもかかわらず、オープンソースのモデルをほとんどリリースせず、ニューラルネットワークの重み(AIモデルの中核機能を定義する数値の固まり)を専有したままにしている。

「言語モデルはデジタル経済の基幹を形成するものであり、我々はその設計において誰もが発言できることを望んでいる。「StableLMのようなモデルは、透明性があり、アクセスしやすく、支援的なAI技術に対する我々のコミットメントを示している。

GPT-4と同様に、ChatGPT-StableLMの最も強力なバージョンを駆動する大規模言語モデル(LLM)は、シーケンス内の次のトークン(単語断片)を予測することによってテキストを生成します。その結果、StableLMは人間のようなテキストを作成し、プログラムを書くことができる。

MetaのLLaMA、StanfordAlpaca、Cerebras-GPT、Dolly 2.0といった最近の “小型 “LLMと同様、StableLMは、OpenAIのリファレンスGPT-3モデルと同等の性能を達成することを目指している。

パラメータとは、言語モデルが学習データから学習するために使用する変数のことです。パラメータを少なくすることで、言語モデルはより小さく、より効率的になり、スマートフォンやラップトップなどのローカルデバイスでの実行が容易になります。しかし、少ないパラメータで高い性能を達成するには、慎重なエンジニアリングが必要であり、これはAIの分野では重要な課題である。

“当社のStableLMモデルは、テキストやコードを生成し、様々なダウンストリームアプリケーションに力を与えることができます。”とStability社は言う。”彼らは、適切なトレーニングによって、小さく効率的なモデルがいかに高いパフォーマンスを提供できるかを実証しています。”

Stability AIによると、StableLMはThe Pileと呼ばれるオープンソースのデータセットをベースにした “新しい実験的データセット “で訓練されたが、3倍大きい。Stability社は、このデータセットの「豊かさ」(詳細は後日公開する予定)が、会話やコーディングのタスクにおいて、より小さなパラメータサイズでモデルが「驚くほど高いパフォーマンス」を発揮する原因だと主張している。

Alpacaメソッドに基づいて対話用に構築されたStableLMの7Bモデルの改良版による非公式な実験では、LLaMAのMetaの生の7Bパラメータのモデルよりも(プロンプトから期待される結果という点では)良いパフォーマンスを発揮するようですが、GPT-3のレベルではありませんでした。StableLMのより大きなパラメータバージョンは、より柔軟で有能かもしれない。

昨年8月、Stability社は、ミュンヘンのルートヴィヒ・マクシミリアン大学のCompVisグループの研究者によって開発されたStable Diffusionのオープンソースリリースに資金を提供し、公開した。

プロンプトから画像を生成できる初期のオープンソース潜在拡散モデルとして、Stable Diffusionは画像合成技術の急速な発展時代の先駆けとなった。また、アーティストや企業の間で強い反響を呼び、その一部はStability AIを訴えた。Stabilityの言語モデルへの進出は、同様の結果を促す可能性がある。

ユーザーは、70億のHugging FaceパラメータからなるStableLMの基本モデルと、Replicateで調整されたモデルをテストすることができる。さらに、Hugging Faceは、ChatGPTに似た会話フォーマットを持つStableLMの対話チューニングバージョンをホストしている。

Stability社は、「近い将来」StableLMに関する完全な技術レポートを発表するとしている。