El gobierno japonés y grandes empresas de tecnología como NEC, Fujitsu y SoftBank están invirtiendo «cientos de millones» en el desarrollo de un modelo en lengua japonesa.

Este modelo de lengua japonesa se supone que representa sutilezas culturales y lingüísticas mejor que el ChatGPT y similares. Será entrenado en textos japoneses utilizando la supercomputadora nacional Fugaku.

Pocas letras frente a muchos caracteres

Keisuke Sakaguchi, investigador en procesamiento de lenguaje natural de la Universidad de Tohoku en Japón, ve las diferencias en el sistema de alfabeto y los datos de entrenamiento limitados de los sistemas occidentales como una desventaja para los usuarios japoneses.

Por ejemplo, ChatGPT a veces genera «caracteres extremadamente raros que la mayoría de la gente nunca ha visto» y palabras raras desconocidas, dijo Sakaguchi. Del mismo modo, ChatGPT a menudo no aplica normas de comunicación culturalmente apropiadas y educadas al generar respuestas en japonés.

El alfabeto inglés tiene 26 caracteres, mientras que el japonés tiene al menos dos grupos de 48 caracteres, además de 2,136 caracteres chinos comúnmente utilizados (kanji). Además, hay diferentes pronunciaciones para cada carácter y aproximadamente 50,000 kanji raramente utilizados.

Japón recibe su propio punto de referencia de LLM

Para medir la sensibilidad de los LLM a la cultura japonesa, los investigadores desarrollaron el Rakuda Ranking, que utiliza preguntas generadas por GPT-4 para medir cuán bien los LLM pueden responder preguntas específicas de Japón. El LLM japonés abierto actual ocupa el cuarto lugar en este ranking. La lista está encabezada por GPT-3.5, y se espera que GPT-4 supere significativamente a su predecesor.

El LLM japonés que está siendo desarrollado por el Instituto de Tecnología de Tokio, la Universidad de Tohoku, Fujitsu y RIKEN, financiado por el gobierno, se lanzará como código abierto el próximo año y tendrá al menos 30 mil millones de parámetros.

Un modelo mucho más grande está siendo construido por el Ministerio de Educación, Cultura, Deportes, Ciencia y Tecnología de Japón. El modelo, con al menos 100 mil millones de parámetros, también estará basado en la lengua japonesa y estará optimizado para aplicaciones científicas: basado en investigaciones publicadas, generará nuevas hipótesis para acelerar la investigación. El modelo costará aproximadamente 200 millones de dólares y estará disponible para el público en 2031.

Recientemente, el Ministerio de Educación de Japón también emitió directrices que permiten el uso limitado de la inteligencia artificial generativa, como el ChatGPT, en las escuelas de primaria, secundaria y superior.