Une étude examine l’évolution du comportement de ChatGPT entre mars et juin et constate des changements significatifs – et pas pour le mieux.

Des chercheurs de l’université de Stanford et de l’université de Californie à Berkeley ont évalué les performances d’une ancienne et d’une nouvelle version de GPT-3.5 et de GPT-4 sur quatre tâches différentes :

  1. Résoudre des problèmes de mathématiques
  2. Réponse à des questions délicates/dangereuses
  3. génération de code
  4. réflexion visuelle

L’étude montre que les performances et le comportement des deux versions diffèrent, parfois radicalement. Par exemple, le GPT-4 (mars 2023) est capable de reconnaître les nombres premiers avec une précision de 97,6 ccuracy, alors que GPT-4 (juin 2023) échoue (2,4 d’exactitude) et ignore l’invite de la chaîne de raisonnement. Le GPT-3.5 (juin 2023), quant à lui, obtient de bien meilleurs résultats que le GPT-3.5 (mars 2023) pour cette tâche.

Le GPT-4 produit beaucoup moins de code directement exécutable en juin

On observe également une baisse significative de l’exécutabilité directe du code : pour le GPT-4, le pourcentage de générations directement exécutables est passé de 52 millions en mars à 10 millions en juin. La baisse pour le GPT-3.5 est également significative (de 22 % à 2 %). La raison : en mars, tant le GPT-4 que le GPT-3.5 ont suivi les instructions de l’utilisateur (« juste le code ») et ont donc produit des générations directement exécutables.

En juin, cependant, ils ont ajouté des guillemets triples supplémentaires avant et après le code, ce qui l’a empêché d’être directement exécutable sans intervention manuelle. La qualité du code généré semble être d’un niveau similaire, mais l’équipe n’a pas effectué de comparaison détaillée.

L’équipe montre également que le modèle GPT-4 répond à moins de questions délicates en juin et obtient de meilleurs résultats dans les tâches de raisonnement visuel, mais qu’il commet en juin des erreurs que le modèle de mars ne commet pas. Les chercheurs ont également observé une légère amélioration dans le modèle GPT-3.5.

L’équipe recommande aux entreprises de mettre en œuvre des analyses de suivi pour les services de gestion du cycle de vie

Le GPT-4 est-il moins bon aujourd’hui qu’il ne l’était en mars ? L’étude ne fournit pas de réponse claire à cette question, mais elle semble montrer que la version de juin contient des bogues qui n’étaient pas présents dans la version précédente.

Quel est donc le véritable message ?

« Nos résultats démontrent que le comportement de GPT-3.5 et GPT-4 a varié de manière significative sur une période de temps relativement courte », ont déclaré les chercheurs. « Cela souligne la nécessité d’évaluer en permanence le comportement des LLM dans les applications de production

Il n’est donc pas encore clair si ces changements sont des bogues, comme l’a suggéré Peter Welinder, vice-président des produits d’OpenAI, dans un exemple similaire, ou s’ils sont la preuve d’une baisse générale de la qualité basée sur les optimisations effectuées par OpenAI pour réduire les coûts – et c’est un problème, car ce n’est pas clair pour les clients d’OpenAI.

Par conséquent, l’équipe recommande aux utilisateurs ou aux entreprises qui utilisent les services LLM dans le cadre de leur flux de travail de mettre en œuvre une analyse de contrôle similaire pour leurs applications sur la base de la recherche présentée. Pour soutenir ce processus et d’autres recherches sur la dérive des modèles de langage, l’équipe met l’évaluation et les données de ChatGPT à disposition sur GitHub.

OpenAI réagit à la recherche en l' »analysant »

Réagir à la recherche. Logan Kilpatrick, responsable des relations avec les développeurs chez OpenAI, a déclaré que l’entreprise était au courant des régressions signalées et qu’elle les analysait. Il a également demandé à OpenAI de mettre en place une suite d’évaluation publique pour tester les cas de régression connus lors de la publication de nouveaux modèles.

Dans une autre publication, il a remercié tous ceux qui ont fait part de leurs expériences concernant les performances du modèle GPT-4. L’entreprise semble donc modifier sa communication après quelques cas où l’équipe d’OpenAI a déclaré que rien n’avait changé et où Welinder a fait part de son hypothèse selon laquelle « lorsque vous l’utilisez de manière plus intensive, vous commencez à remarquer des problèmes que vous n’aviez pas vus auparavant »

Le marché de l’IA générative a encore besoin d’un contrôle de qualité

Cependant, les problèmes rencontrés par OpenAI avec GPT-4 ne sont pas propres à l’entreprise. Toute entreprise qui déploie et met à jour régulièrement des modèles d’IA peut être réticente à communiquer des changements s’ils ne se traduisent pas directement par des améliorations de performance ou des réductions de coûts pour ses clients, et dans certains cas, l’entreprise peut même ne pas se rendre compte de la dégradation avant le déploiement. Exemple concret : des rapports sur la dégradation des performances sont également apparus avec le service d’IA générative Midjourney. Ces rapports présentent la même structure de comptes personnels et de spéculation.

Tout cela montre à quel point le marché des produits d’IA générative est nouveau et compliqué. À l’avenir, des évaluations telles que celle que Kilpatrick souhaite créer pourront aider à passer de preuves anecdotiques à des repères clairs.

Avec le contenu de The Decoder.