Dans le cadre de son voyage en Europe, le PDG d’OpenAI, Sam Altman, a fait le point sur la feuille de route d’OpenAI.

Selon M. Altman, le manque de puissance de calcul ralentit les projets à court terme d’OpenAI et entraîne des plaintes de la part des clients concernant la fiabilité de l’API d’OpenAI.

La pénurie de GPU limite également l’API pour l’affinement des modèles, a-t-il déclaré. L’OpenAI n’utilise pas encore de méthodes de réglage fin plus efficaces, telles que l’adaptation à faible rang (LoRA), qui s’est avérée très utile pour la communauté open-source.

La version à 32 000 fenêtres contextuelles de GPT-4 ne peut pas encore être déployée en raison d’un manque de puissance de calcul, et l’accès aux modèles privés avec des budgets supérieurs à 100 000 dollars est limité. Néanmoins, M. Altman pense qu’une fenêtre contextuelle pouvant atteindre un million de jetons est possible dans le courant de l’année.

Selon M. Altman, toute avancée au-delà de cette limite nécessitera de résoudre le problème d’échelle « O(n^2) » pour l’attention portée au modèle de transformateur : à mesure que la taille de la fenêtre contextuelle augmente, la quantité de calcul requise augmente de façon exponentielle au carré du nombre de jetons. Doubler la taille de la fenêtre contextuelle quadruple les calculs, la tripler les multiplie par neuf, et ainsi de suite. Selon M. Altman, la résolution de ce problème nécessitera une percée scientifique.

Réduire le coût de GPT-4

La réduction du coût de calcul du GPT-4 est une priorité absolue pour l’OpenAI. Avec la transition de GPT-3 à GPT-3.5 et ChatGPT, l’OpenAI a déjà été en mesure de réduire massivement le coût de calcul. Cette réduction a été répercutée sur les clients grâce à des coûts d’API nettement inférieurs.

Les derniers modèles devraient être disponibles dans le courant de l’année via l’API de réglage fin, ainsi qu’une nouvelle API capable de mémoriser les conversations précédentes, de sorte qu’il n’est pas nécessaire de les renvoyer à chaque appel à l’API. Cela permettra de réduire encore les coûts.

D’autre part, les plugins ChatGPT ne seront probablement pas inclus dans l’API, selon M. Altman. Il pense qu’il est plus intéressant d’avoir ChatGPT dans les applications que les applications dans ChatGPT. Selon Altman, les plugins, à l’exception de la navigation, ne sont pas encore adaptés au marché.

Dans ce contexte, M. Altman assure qu’OpenAI ne prévoit pas de lancer d’autres produits que ChatGPT, car elle préfère ne pas faire concurrence à sa communauté de développeurs. La vision de ChatGPT est d’optimiser les API d’OpenAI et de fournir un assistant intelligent. Il existe de nombreuses autres applications pour les modèles de langage qu’OpenAI n’abordera pas.

Le mode multimodal n’arrivera pas avant 2024

Pour l’année prochaine, la multimodalité est à l’ordre du jour pour OpenAI. La multimodalité signifie qu’un modèle d’IA peut traiter des images aussi bien que du texte et, à l’avenir, peut-être de l’audio, de la vidéo ou des modèles 3D.

OpenAI a déjà démontré dans la version GPT-4 que le modèle peut en principe traiter des images, c’est-à-dire générer du texte ou du code à partir d’images. Cependant, en raison de la limitation du GPU mentionnée précédemment, cette fonctionnalité n’est pas disponible pour le moment.

On ne sait pas si OpenAI travaille sur d’autres modèles multimodaux. Le GPT-5 devrait ajouter davantage de multimodalité, mais il n’entrera pas en formation avant six mois, selon M. Altman. Google Deepmind pourrait donc avoir une longueur d’avance en matière de multimodalité avec son modèle Gemini.

M. Altman a également commenté sa récente déclaration sur la « fin d’une ère de modèles d’IA géants », affirmant que l’OpenAI continuera à essayer de former des modèles plus grands et que la loi d’échelle s’applique toujours, c’est-à-dire que les modèles plus grands promettent de meilleures performances. Toutefois, les modèles ne doubleront ou ne tripleront pas de taille chaque année, car cela n’est pas viable. Avec le contenu du décodeur.