OpenAssistant est en passe de devenir une véritable alternative open source au ChatGPT d’OpenAI. Les premiers modèles, les données d’entraînement et le code sont désormais disponibles.

Le projet OpenAssistant a été lancé en décembre, peu après le lancement de ChatGPT par OpenAI. L’objectif est de créer un assistant IA open source doté des mêmes fonctionnalités. À cette fin, l’équipe a passé des mois à collecter un « corpus de conversations de type assistant, généré et annoté par des humains, composé de 161 443 messages répartis dans 66 497 arbres de conversation, dans 35 langues différentes, annotés avec 461 292 notes de qualité », avec l’aide de plus de 13 500 volontaires.

Les modèles, les données d’entraînement et le code d’OpenAssistant sont désormais disponibles.

OpenAssistant lance des modèles avec jusqu’à 30 milliards de paramètres

l’équipe d’OpenAssistant a utilisé les données d’entraînement collectées pour affiner plusieurs modèles linguistiques, notamment des variantes du modèle LLaMA de Meta et du modèle Pyhtia d’EleutherAI. La plus grande variante est basée sur le modèle LLaMA avec 30 milliards de paramètres. Comme Alpaca ou Vicuna, les modèles sont « réglés par instruction » et n’ont pas été améliorés par l’apprentissage par renforcement avec retour d’information humain (RLHF).

Cependant, les résultats générés par les chatbots devraient être proches de ceux du modèle gpt-3.5-turbo de ChatGPT, selon une étude comparative avec des volontaires. Les premières expériences avec des plugins, tels qu’une recherche Google, sont déjà en cours. L’équipe prévoit également d’entraîner et de lancer un modèle LLaMA-30B avec RLHF à l’avenir.

Les modèles Pythia sont déjà disponibles et les modèles LLaMA seront bientôt lancés. Alors que les modèles LLaMA ne peuvent pas être utilisés commercialement en raison de la licence Meta, les modèles Pythia font l’objet d’une licence d’utilisation commerciale.

Outre les modèles, l’équipe publie également le code et, avec OpenAssistant Conversations, les données collectées. En outre, tous les modèles peuvent être testés via une interface web, où les conversations peuvent également être évaluées et utilisées pour améliorer les modèles.

OpenAssistant parle ouvertement de ses limites actuelles

Selon un article d’accompagnement, les modèles présentent les problèmes bien connus des grands modèles de langage, tels que les hallucinations. L’article indique également que les données d’entraînement collectées ont été principalement fournies par des annotateurs masculins, âgés en moyenne de 26 ans. « Ce profil démographique peut involontairement introduire des biais dans l’ensemble de données, car il reflète forcément les valeurs, les perspectives et les intérêts des annotateurs », peut-on lire dans l’article.

L’équipe a également pris des mesures pour détecter et supprimer les messages préjudiciables de l’ensemble de données, mais le système n’est pas infaillible. « Compte tenu des limites évoquées ci-dessus, nous préconisons l’utilisation de nos LLM uniquement dans des contextes de recherche universitaire », indique le document. « Nous encourageons vivement les chercheurs à étudier de manière approfondie la sécurité et la partialité des modèles avant de les utiliser dans des tâches en aval. Il est important de reconnaître que les modèles publiés peuvent présenter un comportement non sécurisé et sont susceptibles de faire l’objet d’attaques par injection rapide.

Le projet OpenAssistant vise à démocratiser la recherche sur l’alignement

Selon l’équipe, la recherche en IA, en particulier dans le domaine des modèles de langage à grande échelle et de leur alignement, ou adaptation aux valeurs humaines, a été largement limitée à une poignée de laboratoires de recherche disposant des ressources nécessaires à la formation et à la collecte de données. Ce monopole sur l’accès aux données de haute qualité compromet le potentiel d’efforts de recherche inclusifs et diversifiés, en particulier autour des défis d’alignement, « qui constituent sans doute certains des domaines de recherche les plus cruciaux de notre époque ».

OpenAssistant, avec ses modèles publiés et ses données librement accessibles, est donc une tentative de démocratiser cette recherche, indique l’article. Ce faisant, les auteurs s’opposent clairement à l’approche d’OpenAI, qui consiste à rendre de plus en plus opaque le développement de ses propres modèles linguistiques et l’approvisionnement en données, et à mener des recherches d’alignement avec un petit groupe d’experts sélectionnés.

Ceux qui souhaitent tester les modèles peuvent le faire via l’interface web d’OpenAssistant. Le code et plus de détails sont disponibles sur GitHub. Les modèles sont disponibles sur Hugging Face.

OpenAssistant a été fondé par Andreas Köpf, Yannic Kilcher, Huu Nguyen et Christoph Schumann et comprend une équipe de plus de 20 développeurs, experts en données et en sécurité, ainsi qu’une équipe de modération et de documentation. Le projet est soutenu par des ressources informatiques, des outils et d’autres aides de Redmond AI, Hugging Face, Weights & Biases, ainsi que Stabilty AI et LAION.