Google Cloud annonce que Med-PaLM 2 sera lancé auprès de certains clients de Google Cloud pour un « test limité » dans les semaines à venir. L’objectif, selon l’entreprise, est d’explorer des scénarios d’utilisation sûrs, responsables et significatifs.

Le modèle de langage médical pourrait « faciliter des discussions riches et informatives, répondre à des questions médicales complexes et trouver des informations dans des textes médicaux compliqués et non structurés », selon Google. Il peut également générer des réponses courtes et longues à des questions médicales et créer des résumés à partir de documents et d’ensembles de données internes, ainsi que de sources scientifiques.

Selon Google, Med-PaLM 2 est le premier modèle linguistique à atteindre des performances de niveau expert sur des questions de type USMLE (US Medical Licensing Examination) avec une précision de plus de 85 %. Sur l’ensemble de données MedMCQA, qui comprend les questions des examens médicaux indiens AIIMS et NEET, il a obtenu un « taux de réussite » de 72,3 %.

Le modèle de langage médical Google Med-PaLM 2 réussit les questions d’examen

Med-PaLM est la variante de Google du modèle de langage PaLM optimisé pour les questions médicales. La dernière version est conçue pour répondre de manière fiable aux questions médicales à un niveau spécialisé.

En décembre dernier, Google a dévoilé Med-PaLM, une version de son modèle linguistique PaLM (Pathways Language Model) optimisée pour répondre aux questions médicales. Med-PaLM a été développé à l’aide d’une méthode spéciale de requête souple combinée à des réponses à des requêtes médicales rédigées par quatre médecins.

Med-PaLM a obtenu des résultats comparables à ceux des professionnels de la santé dans la plupart des tests de référence. Selon l’équipe de recherche, des réponses potentiellement dangereuses ont été générées dans 5,9 % des cas, contre 5,7 % pour les experts humains.

Med-PaLM a également été le premier modèle d’IA à réussir l’examen d’autorisation d’exercer la médecine aux États-Unis (67,2 % de réponses correctes avec des questions de type « autorisation d’exercer », 60 % requis) en répondant correctement à des questions à choix multiples et à des questions ouvertes et en raisonnant sur ses réponses.

Med-PaLM 2 est encore plus précis, mais présente encore des lacunes

Dans le cadre de l’événement « The Check Up » organisé par Google Health, Google a annoncé la poursuite du développement de Med-PaLM. La version actuelle, Med-PaLM 2, peut répondre à des questions d’examen médical au niveau d’un « médecin expert » et est précise dans 85 % des cas.

desempenho do google palm 2
Les performances de Med-PaLM 2 sur les questions de licence médicale comparées à celles d’autres modèles linguistiques. Med-PaLM 2 obtient plus de 85 % de réponses correctes, alors que tous les autres modèles de langage restent en dessous de la barre critique des 60 %. Image : Google AI

Cela signifie que Med-PaLM 2 augmente ses performances de 18 % par rapport à son prédécesseur et qu’il se situe bien au-dessus du niveau des modèles de langage comparables dans les tâches médicales. Toutefois, l’équipe estime qu’il reste encore beaucoup à faire pour que Med-PaLM 2 réponde aux normes de qualité de Google. En ce qui concerne les modifications techniques apportées à Med-PaLM 1, l’équipe ne dit rien.

Med-PaLM 2 a été testé sur la base de 14 critères, dont la factualité scientifique, l’exactitude, le consensus médical, le raisonnement, la partialité et le préjudice, évalués par des cliniciens et des non-cliniciens de divers horizons et pays. L’équipe a constaté « des lacunes importantes lorsqu’il s’agit de répondre à des questions médicales », sans préciser ces lacunes.

En collaboration avec des équipes de recherche, Google prévoit de poursuivre le développement de Med-PaLM afin de combler ces lacunes et de comprendre comment la modélisation du langage peut améliorer les soins de santé. La vidéo ci-dessous montre l’annonce de Med-PaLM 2 à partir de 16:30 environ.