O governo japonês e grandes empresas de tecnologia como NEC, Fujitsu e SoftBank estão investindo “centenas de milhões” no desenvolvimento de um modelo em língua japonesa.

Este modelo de língua japonesa é suposto representar sutilezas culturais e linguísticas melhor do que ChatGPT e afins. Ele será treinado em textos japoneses usando o supercomputador nacional Fugaku.

Poucas letras contra muitos caracteres

Keisuke Sakaguchi, pesquisador em processamento de linguagem natural da Universidade de Tohoku, no Japão, vê as diferenças no sistema do alfabeto e os dados limitados de treinamento dos sistemas ocidentais como uma desvantagem para os usuários japoneses.

Por exemplo, o ChatGPT às vezes gera “caracteres extremamente raros que a maioria das pessoas nunca viu” e palavras desconhecidas raras, disse Sakaguchi. Da mesma forma, o ChatGPT muitas vezes falha em aplicar normas de comunicação culturalmente apropriadas e educadas ao gerar respostas em japonês.

O alfabeto inglês tem 26 caracteres, enquanto o japonês tem pelo menos dois grupos de 48 caracteres, além de 2.136 caracteres chineses comumente usados (Kanji). Além disso, há diferentes pronúncias para cada caractere e aproximadamente 50.000 caracteres Kanji raramente usados.

Japão recebe seu próprio benchmark de LLM

Para medir a sensibilidade dos LLMs à cultura japonesa, os pesquisadores desenvolveram o Rakuda Ranking, que usa perguntas geradas pelo GPT-4 para medir o quão bem os LLMs podem responder a perguntas específicas do Japão. O LLM japonês aberto atual está em quarto lugar neste ranking. A lista é encabeçada pelo GPT-3.5, e o GPT-4 deve superar significativamente seu antecessor.

O LLM japonês que está sendo desenvolvido pelo Instituto de Tecnologia de Tóquio, Universidade de Tohoku, Fujitsu e RIKEN financiado pelo governo deve ser lançado como código aberto no próximo ano e terá pelo menos 30 bilhões de parâmetros.

Um modelo muito maior está sendo construído pelo Ministério da Educação, Cultura, Esportes, Ciência e Tecnologia do Japão. O modelo, com pelo menos 100 bilhões de parâmetros, também será baseado na língua japonesa e otimizado para aplicações científicas: com base em pesquisas publicadas, gerará novas hipóteses para acelerar a pesquisa. O modelo custará aproximadamente US$ 200 milhões e deve estar disponível ao público em 2031.

Recentemente, o Ministério da Educação japonês também emitiu diretrizes permitindo o uso limitado de inteligência artificial generativa, como o ChatGPT, em escolas de ensino fundamental, médio e superior.