Les grands modèles de langage (LLM) ont pris le monde d’assaut grâce à leurs capacités et à leurs caractéristiques semblables à celles des humains. Le dernier ajout à la longue liste des LLM, le modèle GPT-4, a augmenté de façon exponentielle l’utilité de ChatGPT en raison de sa nature multimodale. Cette dernière version reçoit des informations sous forme de texte et d’images et est déjà utilisée pour créer des sites web et des chatbots de haute qualité. Récemment, un nouveau modèle a été introduit pour démocratiser ChatGPT, c’est-à-dire le rendre plus accessible et disponible pour un public plus large, indépendamment des restrictions linguistiques ou géographiques.
Ce dernier modèle, appelé Phoenix, vise à atteindre des performances compétitives non seulement en anglais et en chinois, mais aussi dans des langues aux ressources limitées, telles que les langues latines et non latines. Phoenix, le LLM multilingue qui atteint des performances optimales entre les modèles open source anglais et chinois, a été lancé pour rendre ChatGPT disponible dans des endroits soumis à des restrictions imposées par OpenAI ou par les gouvernements locaux.
L’auteur a décrit l’importance de Phoenix comme suit :
- Phoenix a été présenté comme le premier modèle de ChatGPT à source ouverte, multilingue et démocratisé. Cet objectif a été atteint grâce à l’utilisation de riches données multilingues dans les phases de préformation et d’ajustement de l’instruction.
- L’équipe a procédé à l’adaptation des instructions dans plusieurs langues, en mettant l’accent sur les langues non latines. Les données d’instruction et les données conversationnelles ont été utilisées pour former le modèle. Cette approche permet à Phoenix de bénéficier des deux, ce qui lui permet de générer des réponses contextuellement pertinentes et cohérentes dans différents contextes linguistiques.
- Phoenix est un modèle chinois de premier ordre qui a atteint des performances proches de celles de ChatGPT. Sa version latine, Chimera, est compétitive en anglais.
- Les auteurs affirment que Phoenix est le plus grand modèle de langue open source de SOTA pour de nombreuses langues autres que le chinois et l’anglais.
- Phoenix est l’un des premiers à évaluer systématiquement les grands LLM, en utilisant à la fois des évaluations automatiques et humaines et en évaluant divers aspects des générations de langues.
Phoenix a démontré des performances supérieures à celles des LLM open source existants en chinois, y compris des modèles tels que BELLE et Chinese-LLaMA-Alpaca. Dans d’autres langues non latines, telles que l’arabe, le japonais et le coréen, Phoenix surpasse largement les modèles existants. Phoenix n’a pas atteint les résultats SOTA pour Vicuna, qui est un chatbot open source avec 13B paramètres formés en affinant LLaMA sur des conversations partagées par les utilisateurs.
Cela s’explique par le fait que Phoenix a dû payer une taxe multilingue lorsqu’il a traité des langues non latines ou non cyrilliques. La « taxe multilingue » fait référence à la dégradation des performances qu’un modèle multilingue peut subir lorsqu’il génère du texte dans des langues autres que sa langue principale. L’équipe chargée de la démocratisation a estimé que le fait de payer cette taxe était un moyen de répondre aux besoins de groupes plus restreints parlant des langues aux ressources relativement limitées. L’équipe a proposé une solution exempte de taxe, Phoenix : Chimera, pour atténuer la taxe multilingue dans les langues latines et cyrilliques. Il s’agit de remplacer l’épine dorsale de Phoenix par LLaMA. En anglais, Chimera a impressionné GPT-4 avec une qualité ChatGPT de 96,6 %.
Phoenix semble prometteur en raison de son potentiel multilingue et de sa capacité à permettre à des personnes d’origines linguistiques diverses d’utiliser la puissance des modèles linguistiques pour leurs besoins spécifiques.