Une étude de l’université de Stanford montre que les ChatGPT sont plus performants que les étudiants en médecine lorsqu’ils répondent à des questions complexes basées sur des cas cliniques, ce qui incite à revoir l’enseignement médical.

Des chercheurs de l’université de Stanford ont découvert que ChatGPT peut surpasser les étudiants en médecine de première et de deuxième année lorsqu’ils répondent à des questions complexes sur les soins cliniques.

L’étude, publiée dans JAMA Internal Medicine, met en évidence l’influence croissante de l’IA sur l’enseignement et la pratique de la médecine, suggérant que des ajustements aux méthodes d’enseignement pourraient être nécessaires pour les médecins de demain.

« Nous ne voulons pas que les médecins soient si dépendants de l’IA à l’école qu’ils ne puissent pas résoudre des cas par eux-mêmes », déclare Alicia DiGiammarino, co-auteur de l’étude et responsable de l’enseignement à la faculté de médecine. « Mais je crains davantage un monde où les médecins ne sont pas formés à l’utilisation efficace de l’IA et ne la rencontrent pas couramment dans la pratique moderne. »

L’IA surpasse les étudiants en médecine

Des études récentes ont démontré la capacité de ChatGPT à traiter les questions à choix multiples de l’USMLE (United States Medical Licensing Examination). Cependant, les auteurs de Stanford ont voulu examiner la capacité du système d’IA à traiter des questions plus difficiles, ouvertes, utilisées pour évaluer les compétences de raisonnement clinique.

L’étude a révélé qu’en moyenne, le modèle d’IA a obtenu plus de quatre points de plus que les étudiants en médecine dans la partie de l’examen consacrée aux rapports de cas. Ce résultat suggère que les outils d’IA tels que ChatGPT peuvent perturber l’enseignement et l’évaluation traditionnels du raisonnement médical par le biais d’un texte écrit. Les chercheurs ont également noté un bond significatif par rapport à GPT-3.5, qui était « juste à la limite de la réussite » pour les questions.

ChatGPT et d’autres programmes similaires sont en train de changer la façon dont nous enseignons et, en fin de compte, dont nous pratiquons la médecine.

Alicia DiGiammarino

Malgré ses performances impressionnantes, ChatGPT n’est pas exempt de défauts. Le plus grand danger est la création de faits inventés, également connus sous le nom d’hallucinations ou de confabulations. Ce risque a été considérablement réduit dans le dernier modèle d’OpenAI, GPT-4, qui est disponible pour les clients payants et via l’API, mais il est toujours présent.

On peut imaginer que des erreurs, même très sporadiques, peuvent avoir des conséquences dramatiques dans le domaine médical. Toutefois, dans le cadre d’un programme d’études global avec de multiples sources faisant autorité, ce problème semble beaucoup moins important.

L’école de médecine de Stanford réduit l’accès des étudiants à ChatGPT pendant les examens

Les inquiétudes concernant l’intégrité des examens et l’influence de ChatGPT sur la conception des programmes d’études se font déjà sentir à la faculté de médecine de Stanford. Les administrateurs sont passés d’examens ouverts à des examens fermés pour s’assurer que les étudiants développent des compétences de raisonnement clinique sans s’appuyer sur l’IA. Toutefois, ils ont également créé un groupe de travail sur l’IA pour étudier l’intégration des outils d’IA dans l’enseignement médical.

Au-delà de l’enseignement, il existe d’autres domaines dans lesquels l’IA peut avoir un impact significatif sur les soins de santé. Par exemple, la startup d’IA médicale Insilico Medicine a récemment administré la première dose d’un médicament généré par l’IA à des patients dans le cadre d’un essai clinique de phase II.

Google effectue des essais sur le terrain avec Med-PaLM 2, une version de son grand modèle de langage PaLM 2 conçue pour répondre aux questions médicales. Une autre étude suggère que le GPT-4 peut aider les médecins à répondre aux questions des patients avec plus de détails et d'empathie. Oui, vous avez bien lu : avec plus d'empathie. Avec l’aide de The Decoder.