Sam Altman estime que la stratégie de recherche qui a donné naissance à ChatGPT est épuisée et que les progrès futurs en matière d’intelligence artificielle nécessiteront de nouvelles idées.
LES CARACTÉRISTIQUES IMPRESSIONNANTES de ChatGPT, le chatbot de la startup OpenAI, ont suscité une vague d’intérêt et d’investissements dans le domaine de l’intelligence artificielle. Toutefois, à la fin de la semaine dernière, le PDG d’OpenAI a prévenu que la stratégie de recherche qui a donné naissance au robot était en cours. On ne sait pas exactement d’où viendront les progrès futurs.
Ces dernières années, l’OpenAI a réalisé un certain nombre d’avancées impressionnantes dans le domaine de l’IA qui travaille avec le langage, en prenant des algorithmes d’apprentissage automatique existants et en les faisant passer à une échelle inimaginable auparavant. GPT-4, le dernier de ces projets, a probablement été formé en utilisant des trillions de mots de texte et plusieurs milliers de puces informatiques puissantes. Le processus a coûté plus de 100 millions de dollars.
Mais le PDG de l’entreprise, Sam Altman, estime que ce n’est pas en agrandissant les modèles que l’on progressera. « Je pense que nous sommes à la fin de l’ère des modèles géants », a-t-il déclaré lors d’un événement organisé au MIT à la fin de la semaine dernière. « Nous allons les améliorer par d’autres moyens
La déclaration d’Altman laisse entrevoir un tournant inattendu dans la course au développement et au déploiement de nouveaux algorithmes d’IA. Depuis qu’OpenAI a lancé ChatGPT en novembre, Microsoft a utilisé la technologie sous-jacente pour ajouter un chatbot à son moteur de recherche Bing, et Google a lancé un chatbot concurrent appelé Bard. De nombreuses personnes se sont empressées d’expérimenter l’utilisation de la nouvelle génération de chatbots pour les aider dans leurs tâches professionnelles ou personnelles.
Pendant ce temps, de nombreuses startups bien financées, dont Anthropic, AI21, Cohere et Character.AI, investissent d’énormes ressources dans la construction d’algorithmes de plus en plus grands afin de rattraper la technologie d’OpenAI. La version initiale de ChatGPT était basée sur une version légèrement actualisée de GPT-3, mais les utilisateurs peuvent désormais accéder à une version plus performante utilisant GPT-4.
La déclaration de M. Altman suggère que GPT-4 pourrait être la dernière avancée majeure à émerger de la stratégie d’OpenAI consistant à agrandir les modèles et à les alimenter en données. Il n’a pas précisé quels types de stratégies ou de techniques de recherche pourraient prendre la relève. Dans le document décrivant GPT-4, l’OpenAI indique que ses estimations suggèrent des rendements décroissants pour l’augmentation de la taille des modèles. Selon M. Altman, il existe également des limites physiques au nombre de centres de données que l’entreprise peut construire et à la vitesse à laquelle elle peut le faire.
Nick Frosst, cofondateur de Cohere, qui a travaillé sur l’IA chez Google, estime que le sentiment de M. Altman selon lequel l’augmentation de la taille des modèles ne fonctionnera pas indéfiniment est vrai. Il pense également que les progrès réalisés sur les transformateurs, le type de modèle d’apprentissage automatique au cœur de GPT-4 et de ses rivaux, ne peuvent pas être mis à l’échelle. « Il existe de nombreuses façons d’améliorer les transformateurs et de les rendre plus utiles, et beaucoup d’entre elles n’impliquent pas l’ajout de paramètres au modèle », explique-t-il. Selon M. Frosst, de nouvelles conceptions de modèles d’IA, ou architectures, et des ajustements supplémentaires basés sur le retour d’information humain sont des directions prometteuses que de nombreux chercheurs explorent déjà.
Chaque version de l’influente famille d’algorithmes linguistiques de l’OpenAI consiste en un réseau neuronal artificiel, un logiciel vaguement inspiré de la manière dont les neurones fonctionnent ensemble, qui est entraîné à prédire les mots qui devraient suivre une séquence de texte donnée.
Le premier de ces modèles linguistiques, GPT-2, a été annoncé en 2019. Dans sa forme la plus aboutie, il comportait 1,5 milliard de paramètres, une mesure du nombre de connexions ajustables entre ses neurones artificiels bruts.
À l’époque, ce chiffre était extrêmement élevé par rapport aux systèmes précédents, en partie grâce aux chercheurs d’OpenAI qui ont constaté que la mise à l’échelle rendait le modèle plus cohérent. L’entreprise a fait en sorte que le successeur de GPT-2, GPT-3, annoncé en 2020, soit encore plus grand, avec 175 milliards de paramètres. Les vastes capacités de ce système à générer des poèmes, des courriels et d’autres textes ont contribué à convaincre d’autres entreprises et instituts de recherche de pousser leurs propres modèles d’IA à des tailles similaires, voire plus grandes.
Après le lancement de ChatGPT en novembre, les créateurs de mèmes et les experts en technologie ont spéculé sur le fait que GPT-4, lorsqu’il arriverait, serait un modèle d’une taille et d’une complexité à donner le vertige. Pourtant, lorsque OpenAI a finalement annoncé le nouveau modèle d’intelligence artificielle, l’entreprise n’a pas révélé sa taille – peut-être parce que la taille n’est plus la seule chose qui compte. Lors de l’événement organisé par le MIT, on a demandé à M. Altman si la formation GPT-4 avait coûté 100 millions de dollars ; il a répondu : « C’est plus que cela ».
Bien que l’OpenAI garde le secret sur la taille et le fonctionnement interne de GPT-4, il est probable qu’une partie de son intelligence provienne déjà d’un regard au-delà de l’échelle. Il est également possible qu’elle ait utilisé une méthode appelée « apprentissage par renforcement avec retour d’information humain », qui a été utilisée pour améliorer ChatGPT. Cette méthode consiste à demander à des humains d’évaluer la qualité des réponses du modèle afin de l’orienter vers des réponses qui ont plus de chances d’être jugées comme étant de grande qualité.
Les capacités remarquables du GPT-4 ont surpris certains experts et suscité des débats sur le potentiel de l’IA à transformer l’économie, mais aussi à diffuser des informations erronées et à supprimer des emplois. Des experts en IA, des entrepreneurs technologiques, dont Elon Musk, et des scientifiques ont récemment écrit une lettre ouverte appelant à une pause de six mois dans le développement de quelque chose de plus puissant que le GPT-4.
Au MIT la semaine dernière, M. Altman a confirmé que son entreprise n’était pas en train de développer le GPT-5. « Une version antérieure de la lettre indiquait qu’OpenAI s’entraînait actuellement au GPT-5 », a-t-il déclaré. « Ce n’est pas le cas et nous ne le ferons pas avant un certain temps