Google Cloud anuncia que Med-PaLM 2 se lanzará a determinados clientes de Google Cloud para una «prueba limitada» en las próximas semanas. El objetivo, según la empresa, es explorar escenarios de uso seguros, responsables y significativos.
Según Google, el modelo de lenguaje médico podría «facilitar debates ricos e informativos, responder a preguntas médicas complejas y encontrar ideas en textos médicos complicados y no estructurados». También puede generar respuestas cortas y largas a preguntas médicas y crear resúmenes a partir de documentación y conjuntos de datos internos, así como de fuentes científicas.
Según Google, Med-PaLM 2 es el primer modelo lingüístico que consigue un rendimiento de nivel experto en preguntas de tipo USMLE (US Medical Licensing Examination) con una precisión superior al 85%. En el conjunto de datos MedMCQA, que incluye preguntas de los exámenes médicos AIIMS y NEET de la India, alcanzó un «porcentaje de aprobados» del 72,3 por ciento.
El modelo de lenguaje médico Med-PaLM 2 de Google aprueba preguntas de exámenes
Med-PaLM es la variante de Google del modelo de lenguaje PaLM optimizado para preguntas médicas. La última versión está diseñada para responder con fiabilidad a preguntas médicas a un nivel especializado.
El pasado mes de diciembre, Google presentó Med-PaLM, una versión del modelo PaLM (Pathways Language Model) de Google optimizada para responder a preguntas médicas. Med-PaLM se desarrolló utilizando un método especial de peticiones suaves combinado con respuestas a peticiones médicas escritas por cuatro médicos.
Med-PaLM rindió al nivel de los profesionales de la medicina en la mayoría de las pruebas. Según el equipo de investigación, se generaron respuestas potencialmente dañinas en el 5,9% de las ocasiones, frente al 5,7% de los expertos humanos.
Med-PaLM fue también el primer modelo de IA que aprobó potencialmente el examen de licencia médica de EE.UU. (67,2 por ciento de aciertos cuando se probó con «preguntas estilo licencia», el 60 por ciento requerido) respondiendo correctamente a preguntas de opción múltiple y abiertas y razonando sobre sus respuestas.
Med-PaLM 2 es aún más preciso, pero sigue teniendo lagunas
En el marco del evento «The Check Up» de Google Health, Google anunció la continuación del desarrollo de Med-PaLM. La versión actual, Med-PaLM 2, puede responder a preguntas de exámenes médicos a un «nivel de médico experto» y es precisa el 85% de las veces.
Esto significa que Med-PaLM 2 consigue un 18% más de rendimiento que su predecesor y se sitúa muy por encima del nivel de modelos lingüísticos comparables en tareas médicas. Sin embargo, el equipo aún ve un margen de mejora significativo para garantizar que Med-PaLM 2 cumpla los estándares de calidad de Google. En cuanto a los cambios técnicos con respecto a Med-PaLM 1, el equipo no se pronuncia.
Med-PaLM 2 se sometió a pruebas con 14 criterios, como la veracidad científica, la exactitud, el consenso médico, el razonamiento, la parcialidad y el daño, evaluados por médicos y no médicos de diversas procedencias y países. El equipo encontró «lagunas significativas a la hora de responder a preguntas médicas», sin dar más detalles sobre las deficiencias.
En colaboración con equipos de investigación, Google tiene previsto seguir desarrollando Med-PaLM para colmar estas lagunas y entender cómo el modelado del lenguaje puede mejorar la asistencia sanitaria. El siguiente vídeo muestra el anuncio de Med-PaLM 2 a partir del minuto 16:30 aproximadamente.