日本政府およびNEC、富士通、ソフトバンクなどの大手テクノロジー企業は、「数億ドル単位」で日本語モデルの開発に投資しています。

この日本語モデルは、ChatGPTなどよりも文化や言語の微妙なニュアンスをより正確に表現することを目指しています。国立スーパーコンピュータFugakuを使用して、日本語のテキストでトレーニングされる予定です。

東北大学の自然言語処理の研究者である坂口啓介は、アルファベットのシステムの違いや西洋のシステムの限られたトレーニングデータを、日本のユーザーにとってのデメリットと見ています。

たとえば、ChatGPTは時折、ほとんどの人が見たことのない「非常に珍しい文字」とまれな未知の単語を生成することがあり、日本語での回答生成時に文化的に適切で敬意を払ったコミュニケーション規範を適用することにしばしば失敗します、と坂口は語りました。

英語のアルファベットには26文字しかなく、日本語には少なくとも48文字の文字グループが2つあり、さらに一般的に使用される2,136文字の中国語(漢字)があります。さらに、各文字に異なる発音があり、約50,000のほとんど使用されない漢字が存在します。

日本は独自のLLMベンチマークを持つ

文化的に感受性のあるLLMへの感度を測定するために、研究者たちは「Rakuda Ranking」を開発しました。これは、GPT-4が生成した質問を使用して、LLMが日本独自の質問にどれだけ適切に応答できるかを測定するものです。現在の日本語LLMはこのランキングで4位です。リストのトップにはGPT-3.5があり、GPT-4はその前任者を大幅に上回ると予想されています。

政府の資金提供を受けて、東京工業大学、東北大学、富士通、RIKENが開発中の日本語LLMは、来年オープンソースとしてリリースされ、少なくとも300億のパラメータを備えています。

日本の文部科学省は、少なくとも1000億のパラメータを備えた大規模なモデルを開発中で、これは日本語ベースで、科学的な応用に最適化されています。このモデルは約2億ドルかかる見込みで、2031年に一般に公開される予定です。

最近、日本の文部科学省は、ChatGPTなどの生成的AIを小中高校および高等教育機関で制限付きで使用できるようにするガイドラインを発表しました。