Le gouvernement japonais et de grandes entreprises technologiques telles que NEC, Fujitsu et SoftBank investissent « des centaines de millions » dans le développement d’un modèle en langue japonaise.

Ce modèle linguistique japonais est censé représenter les subtilités culturelles et linguistiques mieux que ChatGPT et autres. Il sera formé sur des textes japonais en utilisant le supercalculateur national Fugaku.

Peu de lettres contre de nombreux caractères

Keisuke Sakaguchi, chercheur en traitement du langage naturel à l’Université de Tohoku au Japon, considère les différences dans le système d’alphabet et les données de formation limitées des systèmes occidentaux comme un inconvénient pour les utilisateurs japonais.

Par exemple, le ChatGPT génère parfois des « caractères extrêmement rares que la plupart des gens n’ont jamais vus » et des mots rares inconnus, a déclaré Sakaguchi. De même, le ChatGPT échoue souvent à appliquer des normes de communication culturellement appropriées et polies lors de la génération de réponses en japonais.

L’alphabet anglais compte 26 caractères, tandis que le japonais comporte au moins deux groupes de 48 caractères, ainsi que 2 136 caractères chinois couramment utilisés (kanji). De plus, il existe différentes prononciations pour chaque caractère et environ 50 000 caractères kanji rarement utilisés.

Le Japon reçoit son propre classement LLM

Pour mesurer la sensibilité des LLM à la culture japonaise, les chercheurs ont développé le classement Rakuda, qui utilise des questions générées par GPT-4 pour mesurer à quel point les LLM peuvent répondre à des questions spécifiques du Japon. Le LLM japonais ouvert actuel est classé quatrième dans ce classement. La liste est dirigée par le GPT-3.5, et le GPT-4 devrait surpasser significativement son prédécesseur.

Le LLM japonais en cours de développement par l’Institut de technologie de Tokyo, l’Université de Tohoku, Fujitsu et RIKEN, financé par le gouvernement, devrait être publié en tant que code source ouvert l’année prochaine et comptera au moins 30 milliards de paramètres.

Un modèle beaucoup plus grand est en construction par le ministère de l’Éducation, de la Culture, des Sports, des Sciences et de la Technologie du Japon. Le modèle, avec au moins 100 milliards de paramètres, sera également basé sur la langue japonaise et optimisé pour les applications scientifiques : il générera de nouvelles hypothèses pour accélérer la recherche, selon des recherches publiées. Le modèle coûtera environ 200 millions de dollars et devrait être disponible au public en 2031.

Récemment, le ministère japonais de l’Éducation a également publié des directives autorisant l’utilisation limitée d’intelligence artificielle générative, comme le ChatGPT, dans les écoles primaires, secondaires et supérieures.