Le GPT-4 de l’OpenAI serait basé sur l’architecture Mixture of Experts et disposerait de 1,76 trillion de paramètres.
Le GPT-4 serait basé sur huit modèles, chacun avec 220 milliards de paramètres, reliés entre eux dans l’architecture du mélange d’experts (MoE). Cette idée date de près de 30 ans et a été utilisée dans de grands modèles de langage, tels que le Switch Transformer de Google.
Le modèle MoE est un type d’apprentissage ensembliste qui combine différents modèles, appelés « experts », pour prendre une décision. Dans un modèle MoE, un réseau de sélection détermine le poids de la sortie de chaque expert en fonction de l’entrée. Cela permet à différents experts de se spécialiser dans différentes parties de l’espace d’entrée. Cette architecture est particulièrement utile pour les grands ensembles de données complexes, car elle permet de diviser efficacement l’espace du problème en sous-espaces plus simples.
Bien qu’il n’y ait pas de déclaration officielle de la part d’OpenAI, les rumeurs sont considérées comme fiables
Les informations sur le GPT-4 proviennent de George Hotz, fondateur de Comma.ai, une startup spécialisée dans la conduite autonome. Hotz est un expert en IA et est également connu pour son expérience en matière de piratage : il a été le premier à percer la sécurité de l’iPhone et de la Playstation 3 de Sony.
D’autres experts en IA ont également commenté le profil Twitter de Hotz, affirmant que ses informations sont très probablement vraies.
i might have heard the same 😃 — I guess info like this is passed around but no one wants to say it out loud.
— Soumith Chintala (@soumithchintala) June 20, 2023
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.
Though, at this point, GPT-4 is… https://t.co/mfsK7a6Bh7
Qu’est-ce que le code source ouvert peut apprendre du GPT-4 ?
L’architecture a peut-être simplifié l’entraînement du GPT-4 en permettant à différentes équipes de travailler sur différentes parties du réseau. Cela expliquerait également pourquoi OpenAI a été en mesure de développer indépendamment les capacités multimodales du GPT-4 du produit actuellement disponible et de les lancer séparément. Cependant, on suppose que le GPT-4 pourrait avoir été fusionné dans un modèle plus petit pour être plus efficace, comme l’a mentionné Soumith Chintala, l’un des fondateurs de PyTorch.
Hotz a également spéculé que le GPT-4 produit non seulement une sortie, mais itérativement 16 sorties qui sont améliorées à chaque itération.
La communauté du code source ouvert pourrait maintenant essayer de reproduire cette architecture ; les idées et la technologie sont disponibles depuis un certain temps. Cependant, le GPT-4 pourrait avoir montré jusqu’où l’architecture MoE peut aller avec les données d’entraînement adéquates et les ressources informatiques nécessaires.