Intelligence artificielle, Outils

Découvrez le ChatGLM : un modèle de PLN en code source ouvert, entraîné sur 1 trillion de jetons et capable de comprendre l’anglais et le chinois

Atualizado em 14/07/2023

Faites partie de la communauté

Rejoignez notre liste de diffusion et recevez du contenu exclusif

ChatGLM (version de test interne alpha : QAGLM) est un robot de discussion conçu spécifiquement pour les utilisateurs chinois. Il utilise un modèle de langage chinois-anglais avec 100 milliards de jetons, avec des fonctionnalités de questions-réponses et de conversation. Il a été ajusté, des tests internes restreints sont en cours et sa portée sera étendue au fil du temps.

De plus, les chercheurs ont lancé le nouveau modèle de discussion bilingue chinois-anglais, ChatGLM-6B, qui, avec la technologie de quantification du modèle, peut être déployé localement sur des cartes graphiques grand public (INT4). Cela fait suite au modèle GLM-130B avec 100 milliards de jetons en code source ouvert. Au niveau de la quantification, seule une mémoire vidéo de 6 Go est nécessaire.

Le ChatGLM-6B, avec 6,2 milliards de paramètres, est plus petit que les modèles de 100 milliards, mais réduit considérablement le seuil de déploiement pour les utilisateurs. Après environ 1 billion d’identifiants de formation bilingue chinois-anglais, il a généré des réponses alignées sur les préférences humaines, complétées par une supervision et un ajustement fin, des retours d’auto-assistance, un renforcement de l’apprentissage avec des retours humains et d’autres technologies.

ChatGLM

Le ChatGLM part du concept du ChatGPT comme point de départ, en incorporant l’entraînement préalable du code dans le modèle de base GLM-130B 1 de 100 milliards de jetons, atteignant l’alignement avec l’intention humaine en utilisant l’ajustement fin supervisé et d’autres méthodes. Le modèle de base unique GLM-130B de 100 milliards de jetons est largement responsable de l’augmentation des capacités dans la version actuelle du ChatGLM. Ce modèle est une architecture d’entraînement préalable autorégressive avec de nombreuses fonctions cibles, contrairement à BERT, GPT-3 ou T5. Les chercheurs ont rendu disponible le modèle dense GLM-130B 1 avec 130 milliards de paramètres pour les communautés académique et commerciale en août 2022.

Avantages et fonctionnalités clés du ChatGLM

Traite du texte dans plusieurs langues et possède des capacités de compréhension et de génération de langage naturel.
A été enseigné dans divers domaines et possède une vaste connaissance pour fournir des informations et des réponses précises et utiles aux utilisateurs.
Peut déduire les relations pertinentes et la logique entre les textes en réponse aux requêtes des utilisateurs.
Peut apprendre de ses utilisateurs et de son environnement, mettant à jour et améliorant automatiquement ses modèles et algorithmes.
Plusieurs secteurs bénéficient de cette technologie, notamment l’éducation, la santé et les banques.
Aide les gens à trouver des réponses et à résoudre des problèmes plus rapidement et plus facilement.
Favorise la sensibilisation et stimule les progrès dans le domaine de l’intelligence artificielle.

Défis et limitations

Il a été conçu comme un modèle de machine dépourvu de sentiments et de conscience, il manque donc de capacité d'empathie et de raisonnement moral partagés par les êtres humains.
Il peut être facilement induit en erreur ou tirer des conclusions incorrectes, car sa connaissance dépend des données et des algorithmes disponibles.
Il peut rencontrer des difficultés pour répondre à des questions abstraites ou complexes ; il peut avoir besoin d’aide pour répondre avec précision à ce type de question.

ChatGLM-130B

Le Centre des grands modèles de l’Université de Stanford a évalué 30 des grands modèles les plus populaires du monde en novembre 2022, et le GLM-130B était le seul modèle asiatique sélectionné. Selon le rapport d’évaluation, en termes d’indicateurs de précision et de malice, de robustesse et d’erreur de calibrage, le GLM-130B se rapproche ou est égal au GPT-3 175B (davinci) pour tous les grands modèles de référence à l’échelle de 100 milliards. Cela le met au niveau des principaux modèles de l’OpenAI, de Google Brain, de Microsoft, de Nvidia et de Facebook.

ChatGLM-6B

Le ChatGLM-6B est un modèle de langage chinois-anglais avec 6,2 milliards de paramètres. C’est un système de questions-réponses et de discussion en chinois qui utilise la même technologie que le ChatGLM (chatglm.cn) pour fonctionner sur une seule 2080Ti et permettre le raisonnement. Les chercheurs ont rendu le modèle ChatGLM-6B en code source ouvert simultanément pour faciliter le développement communautaire dans les technologies des grands modèles.

Le modèle ChatGLM-6B est une version multilingue en code source ouvert avec 6,2 milliards de paramètres du framework Generic Language Model (GLM). La méthode de quantification permet aux utilisateurs de le déployer localement sur du matériel graphique grand public.

Utilisant une méthode très similaire à celle du ChatGPT, le ChatGLM-6B est conçu pour faciliter les sessions de questions-réponses en mandarin. Les chercheurs ont utilisé l’ajustement fin supervisé, l’amorçage des retours et l’apprentissage par renforcement avec des entrées humaines pour entraîner le modèle avec un corpus combiné de 1 billion de jetons en chinois et en anglais. Le modèle peut répondre de manière cohérente aux choix humains, avec environ 6,2 milliards de paramètres.

Caractéristiques qui distinguent le ChatGLM-6B:

Les 1 billion de jetons du ChatGLM-6B sont multilingues, entraînés sur un mélange de contenu en chinois et en anglais dans un rapport de 1:1.
La technique de codage de position bidimensionnelle RoPE a été améliorée en utilisant la structure FFN conventionnelle basée sur l’expérience de formation du GLM-130B. La taille gérable des paramètres du ChatGLM-6B, de 6B (6,2 milliards), permet également un ajustement et un déploiement indépendants par les universitaires et les développeurs individuels.
Au moins 13 Go de mémoire vidéo sont nécessaires pour que le ChatGLM-6B raisonne en demi-précision FP16. Cette exigence peut être réduite à 10 Go (INT8) et 6 Go (INT4) lorsqu’elle est combinée avec la technologie de quantification du modèle, ce qui permet au ChatGLM-6B d’être déployé sur des cartes graphiques grand public.
Le ChatGLM-6B a une longueur de séquence de 2048, ce qui le rend adapté aux discussions et aux applications plus longues que le GLM-10B (longueur de séquence : 1024).
Le modèle est formé pour interpréter les intentions d’enseignement humaines en utilisant l’ajustement fin supervisé, l’amorçage des retours et l’apprentissage par renforcement à partir des retours humains. Le format de markdown affiché est le résultat de cette formation.

Limitations du ChatGLM-6B :

L’espace de stockage limité de 6B est responsable de la petite mémoire du modèle et des capacités linguistiques du ChatGLM-6B. Il peut fournir des conseils inappropriés lorsqu’il s’agit de questions qui nécessitent beaucoup de connaissances factuelles ou de résolution de problèmes logiques (comme les mathématiques ou la programmation).
Étant un modèle de langage seulement vaguement accordé à l’intention humaine, le ChatGLM-6B a le potentiel de produire des sorties biaisées et potentiellement destructrices.
Une plus grande efficacité de la capacité du ChatGLM-6B à interpréter le contexte est nécessaire. Il est possible que la conversation perde son contexte et qu’il y ait des erreurs de compréhension si les réponses prennent trop de temps à générer ou si plusieurs tours de conversation sont nécessaires.
La plupart des matériaux de formation sont écrits en chinois, tandis qu’une seule petite partie est en anglais. Par conséquent, la qualité de la réponse peut être compromise lorsqu’il est donné des instructions en anglais, et cela peut même entrer en conflit avec la réponse fournie lorsqu’il est donné des instructions en chinois.

Consultez le lien Github et le projet. Tout le crédit de cette recherche revient aux chercheurs de ce projet.

André Lug

Fondateur de Iglu Online et écrivain du blog André Lug. En tant qu’expert en gestion de projets et marketing numérique, il fournit des contenus sur la productivité, l’entrepreneuriat, des analyses et des résumés de livres.