En mai, MosaicML a publié ce qui était alors l’un des meilleurs modèles de langage open source, et la startup poursuit aujourd’hui avec une version plus grande et plus puissante.
Après MPT-7B, MosaicML a publié MPT-30B, son deuxième grand modèle de langage open source. Le nouveau modèle comporte 30 milliards de paramètres et MosaicML affirme qu’il surpasse le modèle GPT-3 d’OpenAI, bien qu’il comporte environ un sixième du nombre de paramètres.
Dans certains domaines, tels que la programmation, il surpasserait les modèles open source tels que LLaMA ou Falcon de Meta, et dans d’autres domaines, il serait au même niveau ou légèrement inférieur. Comme toujours, ces informations sont difficiles à vérifier pour le moment. Comme son prédécesseur, MPT-30B peut être utilisé à des fins commerciales et se décline en deux variantes : MPT-30-Instruct, un modèle entraîné à suivre des instructions courtes, et le modèle de chatbot MPT-30B-Chat.
MPT-30B a une fenêtre contextuelle plus longue
MPT-30B a également été entraînée sur des séquences plus longues (jusqu’à 8 000 tokens) que GPT-3, LLaMA ou Falcon (2 000 tokens chacun). La longueur du contexte, qui est la moitié de celle de la nouvelle variante « GPT-3.5-turbo », la rend adaptée aux cas d’utilisation où un grand nombre de textes ou de codes doivent être traités simultanément. Cependant, avec des optimisations supplémentaires, la longueur de la séquence pourrait facilement être doublée lors d’un réglage fin ou d’une inférence, selon MosaicML.
À titre d’exemple, l’entreprise cite des applications dans des secteurs tels que les soins de santé ou la banque, qui ne souhaitent pas fournir leurs données à OpenAI. La fenêtre contextuelle étendue pourrait être utilisée pour interpréter les résultats des tests de laboratoire et fournir des informations sur les antécédents médicaux d’un patient en analysant différentes données.
MosaicML cible la plateforme propriétaire d’OpenAI
MPT-30B serait également plus efficace en termes de calcul que Falcon ou LLaMA, fonctionnant sur une seule carte vidéo avec 80 gigaoctets de mémoire. Naveen Rao, cofondateur et PDG de MosaicML, a expliqué que le modèle Falcon, avec ses 40 milliards de paramètres, ne pouvait pas fonctionner sur un seul GPU.
Toutefois, M. Rao considère les plateformes propriétaires telles qu’OpenAI comme la véritable concurrence ; les projets open source sont en fin de compte tous dans la même équipe, a-t-il déclaré. Il a insisté sur le fait que les modèles de langage open source « comblent l’écart avec ces modèles fermés ». Le GPT-4 d’OpenAI reste nettement supérieur, mais le temps est venu de « franchir le seuil où ces modèles sont en fait extrêmement utiles ».