Maya Bodnick, étudiante à l’université de Harvard, voulait voir si GPT-4 pouvait réussir les essais de première année de Harvard en sciences humaines et sociales.
Bodnick a demandé à GPT-4 de rédiger sept essais sur des sujets tels que les concepts économiques, le présidentialisme en Amérique latine et l’analyse littéraire d’un passage de Proust.
Elle a ensuite remis les essais aux professeurs pour qu’ils les évaluent, en indiquant, à des fins de partialité, que l’essai avait été rédigé par elle ou par GPT-4. En fait, GPT-4 a rédigé toutes les dissertations en utilisant la tâche d’écriture comme stimulus.
Résultat : A. A. A-. B. B-. Réussite. GPT-4 a obtenu une moyenne respectable de 3,57 points, selon Bodnick.
L’étudiante a indiqué qu’elle avait soumis les réponses du GPT-4 sans les modifier, mais avec deux mises en garde : elle a assemblé la rédaction à partir de plusieurs réponses pour respecter la limite de mots, puisque le GPT-4 génère un maximum de 750 mots à la fois.
Elle a également demandé aux évaluateurs d’ignorer les citations manquantes que GPT-4 ne pouvait pas fournir. Ces citations devraient normalement faire partie de la note.
De bonnes notes avec des éloges particuliers et peu de critiques
Outre d’excellentes notes, les évaluateurs ont fait des éloges particuliers, tels que « magnifiquement écrit » ou « essai bien articulé ». Dans l’un des essais sur la résolution des conflits, l’évaluateur a critiqué le style d’écriture tiré par les cheveux, avec beaucoup d’adjectifs et de métaphores.
En ce qui concerne le contenu, les analyses étaient également positives, saluant par exemple le haut niveau de détail ou l’approche structurée de chaque question. La note la plus basse, « B-« , a été attribuée à l’essai sur le présidentialisme en Amérique latine, auquel l’examinateur a reproché d’ignorer les évaluations positives du présidentialisme, ainsi que les aspects économiques.
« Je pense que nous pouvons extrapoler à partir de la performance généralement solide de ChatGPT-4 que les essais générés par l’IA peuvent probablement obtenir la note de passage dans les classes d’arts libéraux de la plupart des universités du pays », écrit M. Bodnick. À Princeton ou à UC Berkeley, ces notes auraient pu être des B et des C plutôt que des A et des B. Pourtant, le GPT-4 aurait été réussi. Les sept essais peuvent être consultés ici.
Un nouveau paradigme pour l’apprentissage et l’enseignement
Mme Bodnick pense que l’IA va complètement changer la façon dont les sciences humaines et sociales sont enseignées. Elle affirme qu’il n’a jamais été aussi facile de tricher sur un devoir et que la technologie deviendra probablement encore plus performante dans des domaines tels que les citations.
Récemment, de grandes entreprises d’IA se sont portées volontaires pour développer un système de filigrane. Cependant, OpenAI a retiré son détecteur en raison d’un manque de précision, et le PDG d’OpenAI, Sam Altman, a toujours exprimé des doutes quant à la capacité d’un système de reconnaissance de texte basé sur l’IA à fonctionner à moyen et à long terme.
Par conséquent, les tests devront revenir, du moins en partie, à des entretiens en face à face plutôt qu’à des essais, estime Mme Bodnick. Selon elle, le fait que le GPT-4 ait réussi à rédiger ses essais est révélateur de l’évolution possible de leur future profession.
C’est pourquoi, selon elle, il est important que le système éducatif utilise ces résultats pour réfléchir à l’évolution des carrières et à la manière de s’y préparer, plutôt que d’essayer d’identifier et de punir les rédactions réalisées par des IA.
« Ma première réaction est que les étudiants en sciences humaines – qui passent la majeure partie de leur carrière universitaire à rédiger des essais – seront confrontés à des difficultés encore plus grandes dans un monde post-AI. L’IA ne s’attaque pas seulement à la dissertation universitaire, elle s’attaque aussi à la classe de cerveau