A MosaicML lançou o melhor modelo de linguagem de fonte aberta até agora, licenciado para uso comercial. Uma das variantes pode até lidar com livros inteiros.

O MPT-7B da MosaicML é um grande modelo de linguagem com quase 7 bilhões de parâmetros, que a equipe treinou em seu próprio conjunto de dados de quase um trilhão de tokens.

A MosaicML seguiu o regime de treinamento do modelo LLaMA da Meta. O treinamento custou quase US$ 200.000 e levou 9,5 dias usando a plataforma MosaicML.

MosaicML MPT-7B é o melhor modelo de código aberto até agora.

Segundo a MosaicML, o MPT-7B corresponde ao desempenho do modelo LLaMA de 7 bilhões de parâmetros da Meta, tornando-se o primeiro modelo de fonte aberta a atingir esse nível, à frente do OpenLLaMA.

O MPT-7B da MosaicML alcança a qualidade do LLaMA 7B da Meta.
O MPT-7B da MosaicML alcança a qualidade do LLaMA 7B da Meta. | Imagem: MosaicML

Ao contrário dos modelos da Meta, no entanto, o MPT-7B é licenciado para uso comercial.

Além do modelo “MPT-7B Base”, a MosaicML também lança três variantes: MPT-7B-StoryWriter-65k+, MPT-7B-Instruct e MPT-7B-Chat.

A MosaicML lança modelo de linguagem com contexto de 65.000 tokens

MPT-7B-Instruct é um modelo para seguir instruções, e o modelo Chat é uma variante de chatbot no estilo Alpaca ou Vicuna.

Com o MPT-7B-StoryWriter-65k+, a MosaicML também lança um modelo capaz de ler e escrever histórias com comprimentos de contexto muito longos. Para esse propósito, o MPT-7B foi ajustado com um comprimento de contexto de 65.000 tokens usando um subconjunto do conjunto de dados books3. A maior variante GPT-4 da OpenAI pode lidar com 32.000 tokens.

Segundo a MosaicML, o modelo pode escalar além de 65.000 tokens com algumas otimizações, e a equipe demonstrou até 84.000 tokens em um único nó usando GPUs Nvidia A100-80GB. Mas mesmo com 65.000 tokens, era possível ler romances inteiros e escrever um epílogo.

mosaiclm gerando texto
O modelo StoryWriter pode lidar com O Grande Gatsby. | Imagem: MosaicML

Todos os modelos MPT-7B estão disponíveis no GitHub.