アラブ首長国連邦の研究者は、Cerebrasとの協力により、JaisとJais-chatという2つの新しいオープンな言語モデルを発表しました。 これらのモデルはアラビア語と英語、およびコードでトレーニングされ、既存のオープンソースモデルを大幅に上回ります。
Jaisは、13億のパラメーターで事前にトレーニングされ、3950億のトークンが含まれており、そのうち1160億がアラビア語のトークンです。 Jais-chatは、さらに1000万以上の指示/応答のペアで調整され、アラビア語/多言語の既存のすべてのチャットボットを上回ります。
これらのモデルは、アラビア語に焦点を当てた最初のオープンなモデルです。
Jaisは、一部のタスクでChatGPTと組み合わせることができます
トレーニングデータにはアラビア語のウェブサイト、書籍、ニュース、Wikipediaなどが使用され、トレーニング前にデータはすべてフィルタリングされました。 EleutherAIのThe Pileに含まれる英語の2320億トークンのデータは、利用可能なアラビア語のデータが限られているため、補完的に使用されます。 チームはまた、460億トークンのコードデータを使用しています。
ベンチマークでは、JaisとJais-chatは、既存のアラビア語モデルを11〜15ポイントの精度で上回り、チームによれば英語のLLaMa2に対して競争力があります。 OpenAIのChatGPTやAnthropicのClaudeなどの商用モデルは、ベンチマークの平均ではまだ先行していますが、大幅に大きいです。 ただし、執筆など一部のタスクでは、JaisとJais-chatはChatGPTと同等のレベルにあります、とチームは述べています。
チームはJais-chatに対するさまざまなセキュリティメカニズムも提供しており、不要なリクエストや出力をフィルタリングし、分類しています。
このモデルの特徴のもう1つの特徴は、NvidiaのGPUでトレーニングされたのではなく、CerebrasのCS-2システムでトレーニングされたことです。同社はウェハサイズのAIチップを搭載したCS-2システムを製造しています。
JaisとJais-chatはHugging Faceで利用可能で、Arabic-GPTで試すことができます。