« BigCode », une initiative conjointe de Hugging Face et ServiceNow, présente Starcoder et StarcoderBase, deux excellents modèles de langage open source. Les chercheurs insistent particulièrement sur la sélection transparente et respectueuse des droits d’auteur des données.
Les modèles Starcoder, avec 15,5 milliards de paramètres, sont capables de générer du code dans 86 langages de programmation. Dans une approche innovante, les chercheurs ont utilisé une méthode appelée « multi-query attention », qui permet aux modèles Starcoder de se concentrer sur plusieurs parties du code en même temps, au lieu de traiter chaque jeton de manière séquentielle. Cela permet aux deux modèles Starcoder de lire de plus grandes quantités de code (8K fenêtres contextuelles) plus rapidement et plus efficacement, accélérant ainsi la compréhension et la génération de code.
Selon Lubna Ben Allal, chercheuse participant à l’étude, les modèles Starcoder ont été entraînés sur des données hautement sélectionnées, ce qui a nécessité beaucoup d’efforts humains : « Nous avons inspecté manuellement 50 à 100 fichiers pour toutes les extensions dans les langages de programmation sélectionnés et choisi des filtres appropriés », a déclaré Mme Ben Allal.
Le travail semble avoir porté ses fruits : les deux modèles obtiennent de meilleurs résultats dans les tests de référence que n’importe quel autre modèle ouvert prenant en charge plusieurs langages de programmation, et égalent ou dépassent même le modèle « code-cushman-001 » de l’OpenAI.
Cela place Starcoder sur la liste croissante des modèles d’IA open source qui peuvent rivaliser avec les modèles industriels propriétaires, même si les performances du code de Starcoder peuvent encore être inférieures à celles de GPT-4.
L’équipe de Starcoder respecte la vie privée et les droits d’auteur
Les deux modèles visent également à établir une nouvelle norme en matière de gouvernance des données. L’équipe affirme n’avoir utilisé que des données autorisées sans références personnelles pour la formation aux données et a également mis en place un mécanisme d’exclusion et un mécanisme de recherche d’extraits de code au cas où vous souhaiteriez vérifier si votre code est inclus dans les données utilisées de la base de données The Stack.
L’équipe publie le modèle Starcoder sous la licence Open Responsible AI Model, qui permet une utilisation commerciale. Le modèle n’est pas optimisé pour les instructions, mais peut être optimisé en tant qu’assistant technique avec quelques instructions supplémentaires. Toutes les informations et tous les liens pertinents se trouvent sur le site HuggingFace Starcoder.