MosaicML a lancé le meilleur modèle de langage open source à ce jour, autorisé pour un usage commercial. L’une des variantes peut même gérer des livres entiers.

Le MPT-7B de MosaicML est un modèle de langage de grande envergure avec près de 7 milliards de paramètres, que l’équipe a formé sur son propre ensemble de données de près d’un billion de tokens.

MosaicML a suivi le régime d’entraînement du modèle LLaMA de Meta. La formation a coûté près de 200 000 dollars et a duré 9,5 jours en utilisant la plateforme MosaicML.

MosaicML MPT-7B est le meilleur modèle open source à ce jour.

Selon MosaicML, le MPT-7B correspond aux performances du modèle LLaMA de Meta avec 7 milliards de paramètres, devenant ainsi le premier modèle open source à atteindre ce niveau, devant l’OpenLLaMA.

O MPT-7B da MosaicML alcança a qualidade do LLaMA 7B da Meta.
Le MPT-7B de MosaicML atteint la qualité du LLaMA 7B de Meta. | Image : MosaicML

Contrairement aux modèles de Meta, cependant, le MPT-7B est sous licence pour un usage commercial.

En plus du modèle « MPT-7B Base », MosaicML propose également trois variantes : MPT-7B-StoryWriter-65k+, MPT-7B-Instruct et MPT-7B-Chat.

MosaicML lance un modèle de langage avec un contexte de 65 000 jetons

Le MPT-7B-Instruct est un modèle conçu pour suivre des instructions, tandis que le modèle Chat est une variante de chatbot dans le style Alpaca ou Vicuna.

Avec le MPT-7B-StoryWriter-65k+, MosaicML propose également un modèle capable de lire et d’écrire des histoires avec de très longs contextes. À cette fin, le MPT-7B a été ajusté avec une longueur de contexte de 65 000 jetons en utilisant un sous-ensemble de l’ensemble de données books3. La variante GPT-4 la plus importante d’OpenAI peut gérer 32 000 jetons.

Selon MosaicML, le modèle peut évoluer au-delà de 65 000 jetons avec quelques optimisations, et l’équipe a même démontré une capacité allant jusqu’à 84 000 jetons sur un seul nœud en utilisant les GPU Nvidia A100-80GB. Mais même avec 65 000 jetons, il était possible de lire des romans entiers et d’écrire un épilogue.

mosaiclm gerando texto
Le modèle StoryWriter peut traiter « Le Grand Gatsby ». | Image : MosaicML

Tous les modèles MPT-7B sont disponibles sur GitHub.