Le ChatGPT est capable de lire 4 096 jetons, tandis que le LongNet peut en lire un milliard. Cela pourrait permettre aux modèles Transformer de traiter simultanément des parties entières du Web.

La longueur de séquence dans les modèles Transformer joue un rôle important dans l’entraînement et surtout dans le déploiement : des longueurs de séquence plus importantes permettent une fenêtre de contexte plus large dans laquelle, par exemple, un modèle de langage peut traiter et générer plus de texte, ou un transformateur de vision peut capturer plus d’informations dans une image.

Un grand problème lors de l’augmentation de la longueur de séquence est que la relation entre la longueur de séquence et la puissance de traitement requise est quadratique dans l’architecture standard du Transformer, ce qui entraîne une augmentation rapide de la puissance de traitement nécessaire.

Le LongNet traite 250 000 fois plus de jetons que le ChatGPT

Cependant, il est possible d’atteindre des longueurs de séquence plus importantes grâce à diverses optimisations : le ChatGPT d’OpenAI a une fenêtre de contexte de 4 096 jetons, ce qui équivaut à environ 3 000 mots. Cependant, il existe des variantes du GPT-3.5-turbo avec environ 8 000 jetons, et le plus grand modèle GPT-4 a environ 32 000 jetons. Avec le Claude, Anthropic propose un modèle commercialement disponible avec environ 100 000 jetons.

Avec le LongNet, Microsoft démontre une méthode qui évolue de manière linéaire et, selon l’équipe, peut atteindre un milliard de jetons, soit 250 000 fois plus long que le ChatGPT. Cela équivaut à environ 750 000 000 de mots ou 2 000 000 de pages.

L’équipe réalise cette avancée grâce à un mécanisme d’attention adapté appelé « attention dilatée ». Dans ce cas, l’allocation d’attention diminue de manière exponentielle à mesure que la distance entre les jetons augmente, de sorte que le réseau observe les relations entre les jetons proches avec la même attention qu’un mécanisme d’attention standard, mais applique des motifs d’attention plus larges aux jetons plus éloignés.

LongNet permet le traitement de jeux de données de la taille du Web

Dans un test, l’équipe utilise le LongNet pour entraîner un modèle de génération de parole avec jusqu’à 32 000 jetons et le compare à des approches basées sur des transformateurs classiques. Selon l’équipe, le LongNet démontre les lois d’échelle connues des modèles de transformateurs classiques ; par exemple, la perplexité du modèle diminue à mesure qu’il devient plus grand.

À l’avenir, le LongNet pourra permettre le traitement de jeux de données de la taille du Web, a déclaré l’équipe. La grande fenêtre de contexte fournit également une mémoire et un champ réceptif étendus pour les modèles, ce qui est pertinent pour leur interaction avec les personnes ou le monde. Une plus grande fenêtre de contexte contient également des chemins de causalité et de raisonnement plus complexes que les modèles peuvent explorer dans les données d’entraînement, ce qui peut aboutir à des modèles ayant une meilleure capacité de généralisation. Le LongNet permet également d’explorer les limites de l’apprentissage en contexte, affirme l’équipe, « ce qui a le potentiel d’être un changement de paradigme pour l’apprentissage à partir de nombreux exemples, car un contexte extrêmement long peut aider les modèles à atténuer l’oubli catastrophique ».

Pour l’instant, le LongNet n’est qu’un concept de preuve

Il n’est pas encore clair si le LongNet peut réellement tenir ces promesses ; l’article manque de comparaisons avec les modèles de langage modernes, tels que le GPT-4 32k, et de mesures véritablement significatives, telles que la précision ou les évaluations humaines. À cet égard, le LongNet est initialement une étude de faisabilité ; il faudra montrer dans de futurs travaux si ces longueurs de séquence gigantesques apportent de réels avantages.

À l’avenir, l’équipe prévoit d’utiliser le LongNet pour d’autres applications, telles que des modèles de langage multimodaux à grande échelle ou la modélisation de données génomiques.