Mercredi, Stability AI a lancé une nouvelle famille de modèles de langage d’IA open source appelée StableLM. Stability espère reproduire les effets catalyseurs de son modèle de synthèse d’images open source Stable Diffusion, lancé en 2022. En l’affinant, StableLM peut être utilisé pour construire une alternative open source à ChatGPT.
StableLM est actuellement disponible en format alpha sur GitHub dans des modèles de 3 milliards et 7 milliards de paramètres, avec des modèles de 15 milliards et 65 milliards de paramètres à suivre, selon Stability. L’entreprise publie les modèles sous la licence Creative Commons BY-SA-4.0, qui exige que les adaptations citent le créateur original et partagent la même licence.
Stability AI Ltd. est une société londonienne qui s’est positionnée comme un rival open source d’OpenAI, qui, malgré son nom « ouvert », publie rarement des modèles open source et garde ses poids de réseau neuronal – la masse de nombres qui définit la fonctionnalité de base d’un modèle d’intelligence artificielle – en exclusivité.
« Les modèles de langage formeront l’épine dorsale de notre économie numérique, et nous voulons que tout le monde ait son mot à dire dans leur conception », écrit Stability dans un billet de blog introductif. « Les modèles tels que StableLM démontrent notre engagement en faveur d’une technologie d’IA transparente, accessible et solidaire.
Comme GPT-4, le grand modèle de langage (LLM) qui alimente la version la plus puissante de ChatGPT-StableLM génère du texte en prédisant le prochain token (fragment de mot) dans une séquence. Cette séquence commence par des informations fournies par un être humain sous la forme d’une « invite ». Par conséquent, StableLM peut composer des textes semblables à ceux d’un être humain et écrire des programmes.
Comme d’autres « petits » LLM récents tels que LLaMA de Meta, Stanford Alpaca, Cerebras-GPT et Dolly 2.0, StableLM vise à atteindre des performances similaires à celles du modèle de référence GPT-3 d’OpenAI, en utilisant beaucoup moins de paramètres – 7 milliards pour StableLM contre 175 milliards pour GPT-3.
Les paramètres sont des variables qu’un modèle de langage utilise pour apprendre à partir de données d’apprentissage. Le fait d’avoir moins de paramètres rend le modèle linguistique plus petit et plus efficace, ce qui peut faciliter son exécution sur des appareils locaux tels que les smartphones et les ordinateurs portables. Toutefois, l’obtention de performances élevées avec moins de paramètres nécessite une ingénierie minutieuse, ce qui constitue un défi important dans le domaine de l’intelligence artificielle.
« Nos modèles StableLM peuvent générer du texte et du code et alimenter une variété d’applications en aval », déclare Stability, « Ils démontrent comment des modèles petits et efficaces peuvent fournir des performances élevées avec une formation appropriée. »
Selon Stability AI, StableLM a été entraîné sur « un nouvel ensemble de données expérimentales » basé sur un ensemble de données open source appelé The Pile, mais trois fois plus grand. Stability affirme que la « richesse » de cet ensemble de données, dont elle promet de divulguer les détails ultérieurement, est à l’origine des « performances étonnamment élevées » du modèle sur des paramètres plus petits dans les tâches de conversation et de codage.
Dans nos expériences informelles avec une version améliorée du modèle 7B de StableLM construit pour le dialogue basé sur la méthode Alpaca, nous avons trouvé qu’il semblait mieux fonctionner (en termes de résultats que vous attendez, compte tenu de l’invite) que le modèle LLaMA du paramètre 7B brut de Meta, mais pas au niveau de GPT-3. Les versions de StableLM avec des paramètres plus importants peuvent être plus flexibles et plus performantes.
En août de l’année dernière, Stability a financé et rendu publique la version open source de Stable Diffusion, développée par des chercheurs du groupe CompVis de l’Université Ludwig Maximilian de Munich.
En tant que premier modèle de diffusion latente à source ouverte capable de générer des images à partir de messages, Stable Diffusion a inauguré une ère de développement rapide de la technologie de synthèse d’images. Il a également suscité de vives réactions parmi les artistes et les entreprises, dont certaines ont intenté un procès à Stability AI. Le passage de Stability aux modèles de langage pourrait donner lieu à des résultats similaires.
Les utilisateurs peuvent tester le modèle de base StableLM de 7 milliards de paramètres Hugging Face et le modèle ajusté dans Replicate. En outre, Hugging Face héberge une version de StableLM adaptée aux dialogues, avec un format de conversation similaire à ChatGPT.
Stability indique qu’elle publiera un rapport technique complet sur StableLM « dans un avenir proche ».