5月、MosaicMLは当時最高のオープンソース言語テンプレートのひとつであったMPT-7Bをリリースしました。

MPT-7Bに続き、MosaicMLは2番目の主要なオープンソース言語モデルであるMPT-30Bをリリースした。この新しいモデルは300億のパラメーターを持ち、MosaicMLは、パラメーター数がおよそ6分の1であるにもかかわらず、OpenAIのGPT-3を凌ぐと主張している。

プログラミングのようなある分野では、MetaのLLaMAやFalconのようなオープンソースモデルを上回り、他の分野では同等かわずかに劣るという。いつものことだが、この情報を検証するのは現時点では難しい。MPT-30Bは、前モデルと同様に商用利用が可能で、短い指示に従うように訓練されたMPT-30-Instructと、チャットボット・モデルのMPT-30B-Chatの2種類がある。

MPT-30Bはコンテキスト・ウィンドウが長い

MPT-30Bは、GPT-3、LLaMA、ファルコン(各2,000トークン)よりも長いシーケンス(最大8,000トークン)でも訓練された。最新の “GPT-3.5-turbo “の半分の長さのコンテキストは、多くのテキストやコードを同時に処理する必要がある場合に適している。しかし、MosaicMLによれば、さらに最適化を加えれば、微調整や推論の際にシーケンス長を簡単に2倍にすることができるという。

例として、同社はヘルスケアや銀行など、OpenAIにデータを提供したくない分野のアプリケーションを挙げている。拡張されたコンテキストウィンドウは、さまざまな入力を分析することで、検査結果を解釈したり、患者の病歴に関する洞察を提供したりするのに利用できる。

MosaicMLはOpenAIの独自プラットフォームをターゲットにしている

MPT-30BはFalconやLLaMAよりも計算効率が高く、80ギガバイトのメモリを搭載したビデオカード1枚で動作するという。MosaicMLの共同設立者兼CEOであるナヴィーン・ラオ氏は、400億ものパラメーターを持つFalconモデルは、シングルGPUでは実行できないと説明した。

しかし、ラオ氏はOpenAIのようなプロプライエタリなプラットフォームが本当の競争相手だと考えている。彼は、オープンソースの言語モデルは「これらのクローズドソースモデルとのギャップを縮めつつある」と強調した。OpenAIのGPT-4はまだ明らかに優れているが、「これらのモデルが本当に非常に有用である閾値を超えた」時が来たと彼は言う。