Jais é um modelo de linguagem grande focado em árabe e é atualmente o melhor modelo aberto de seu tipo.

Pesquisadores dos Emirados Árabes Unidos, em colaboração com a Cerebras, apresentam dois novos modelos de linguagem aberta: Jais e Jais-chat. Os modelos foram treinados em árabe e inglês e código, e superam significativamente os modelos de código aberto existentes para árabe.

Jais é um modelo de parâmetros de 13 bilhões pré-treinado com 395 bilhões de tokens, dos quais 116 bilhões são tokens árabes. O bate-papo Jais foi ajustado com mais 10 milhões de pares de instrução/resposta e supera todos os chatbots abertos em árabe/multilíngue existentes.

Os modelos são os primeiros modelos abertos centrados no árabe dessa escala.

Jais pode combinar ChatGPT em algumas tarefas

Sites árabes, livros, notícias e Wikipédia foram usados como dados de treinamento, com todos os dados filtrados antes do treinamento. Os 232 bilhões de tokens de dados em inglês do The Pile by EleutherAI são usados para compensar os limitados dados árabes disponíveis. A equipe também usa 46 bilhões de tokens de código.

Em benchmarks, Jais e Jais-chat superam os modelos árabes existentes e disponíveis gratuitamente em 11 a 15 pontos de precisão, e são competitivos com o LLaMa2 da Meta para inglês, de acordo com a equipe. Modelos comerciais como o ChatGPT da OpenAI ou o Claude da Anthropic ainda estão à frente na média nos benchmarks, mas também são significativamente maiores. No entanto, para algumas tarefas, como escrever, Jais e Jais-chat estão no mesmo nível do ChatGPT, disse a equipe.

A equipe também fornece uma série de outros mecanismos de segurança para o Jais-chat, como filtros e classificadores para solicitações e saídas indesejadas.

Outra característica especial do modelo: ele não foi treinado em GPUs da Nvidia, mas nos sistemas CS-2 da Cerebra. A empresa produz um chip de IA do tamanho de um wafer que é instalado nos sistemas CS-2.

Jais e Jais-chat estão disponíveis no Hugging Face e podem ser experimentados no Arabic-GPT.