大規模言語モデル(LLM)は、その人間のような能力と特徴で世界を席巻しています。LLMの長いリストに最近加わったGPT-4モデルは、そのマルチモーダルな性質により、ChatGPTの有用性を飛躍的に高めています。この最新バージョンは、テキストや画像の形で情報を受け取り、すでに高品質のウェブサイトやチャットボットの作成に使用されています。最近、ChatGPTを民主化する、つまり言語や地理的な制約に関係なく、より多くの人々がよりアクセスしやすく利用できるようにするために、新しいモデルが導入された。

Phoenixと呼ばれるこの最新モデルは、英語や中国語だけでなく、ラテン語や非ラテン語などリソースが限られた言語でも競争力を発揮することを目指しています。英語と中国語のオープンソースの中間の最適なパフォーマンスを実現する多言語LLMであるPhoenixは、OpenAIや自治体による制限のある場所でもChatGPTを利用できるようにするために立ち上げられた。

筆者はPhoenixの意義を次のように語っている:

  1. Phoenixは、初のオープンソース、多言語、民主化されたChatGPTモデルとして発表されました。これは、指導の事前訓練と微調整の段階で豊富な多言語データを使用することで達成された。
  2. チームは、非ラテン語を中心に、複数の言語でのインストラクションの適応を実施しました。モデルの学習には、指示データと会話データの両方が使用された。このアプローチにより、Phoenixは両方の恩恵を受けることができ、異なる言語環境において文脈に関連した首尾一貫した応答を生成することができる。
  3. PhoenixはChatGPTに近い性能を達成した一流の中国語モデルです。そのラテン語版であるChimeraは英語でも競争力がある。
  4. 著者らは、Phoenixは中国語と英語以外の多くの言語に対応するSOTAの大規模なオープンソース言語モデルであると主張している。
  5. Phoenixは、自動評価と人間による評価の両方を用い、言語世代のさまざまな側面を評価しながら、大規模なLLMを体系的に評価した最初のもののひとつである。

Phoenixは、BELLEやChinese-LLaMA-Alpacaなどのモデルを含む、中国語における既存のオープンソースLLMと比較して優れた性能を実証しています。アラビア語、日本語、韓国語など、ラテン語以外の言語においても、Phoenixは既存のモデルを大きく上回っています。Phoenixは、オープンソースのチャットボットであり、LLaMAをユーザー共有の会話で微調整して学習させた13Bのパラメータを持つVicunaでは、SOTAの結果を達成できなかった。

これは、Phoenixがラテン語やキリル文字以外の言語を扱う場合、多言語税を支払わなければならなかったからだ。多言語税」とは、多言語モデルが主要言語以外の言語でテキストを生成する際に被る可能性のある性能低下のことである。この税金を支払うことは、比較的リソースの少ない言語を話す小さなグループに対応する方法として、民主化チームによって価値があるとみなされた。チームは、ラテン語とキリル文字における多言語税を軽減するための非課税ソリューションPhoenix: Chimeraを提案した。これには、PhoenixのバックボーンをLLaMAに置き換えることが含まれる。英語では、ChimeraがGPT-4で96.6パーセントのChatGPT品質を達成しました。

Phoenixは、その多言語の可能性と、多様な言語的背景を持つ人々がそれぞれのニーズに合わせて言語モデルの力を活用できるようにする能力から、有望視されている。

論文と Githubをご覧ください。