Google Cloud anuncia que Med-PaLM 2 se lanzará a determinados clientes de Google Cloud para una «prueba limitada» en las próximas semanas. El objetivo, según la empresa, es explorar escenarios de uso seguros, responsables y significativos.

Según Google, el modelo de lenguaje médico podría «facilitar debates ricos e informativos, responder a preguntas médicas complejas y encontrar ideas en textos médicos complicados y no estructurados». También puede generar respuestas cortas y largas a preguntas médicas y crear resúmenes a partir de documentación y conjuntos de datos internos, así como de fuentes científicas.

Según Google, Med-PaLM 2 es el primer modelo lingüístico que consigue un rendimiento de nivel experto en preguntas de tipo USMLE (US Medical Licensing Examination) con una precisión superior al 85%. En el conjunto de datos MedMCQA, que incluye preguntas de los exámenes médicos AIIMS y NEET de la India, alcanzó un «porcentaje de aprobados» del 72,3 por ciento.

El modelo de lenguaje médico Med-PaLM 2 de Google aprueba preguntas de exámenes

Med-PaLM es la variante de Google del modelo de lenguaje PaLM optimizado para preguntas médicas. La última versión está diseñada para responder con fiabilidad a preguntas médicas a un nivel especializado.

El pasado mes de diciembre, Google presentó Med-PaLM, una versión del modelo PaLM (Pathways Language Model) de Google optimizada para responder a preguntas médicas. Med-PaLM se desarrolló utilizando un método especial de peticiones suaves combinado con respuestas a peticiones médicas escritas por cuatro médicos.

Med-PaLM rindió al nivel de los profesionales de la medicina en la mayoría de las pruebas. Según el equipo de investigación, se generaron respuestas potencialmente dañinas en el 5,9% de las ocasiones, frente al 5,7% de los expertos humanos.

Med-PaLM fue también el primer modelo de IA que aprobó potencialmente el examen de licencia médica de EE.UU. (67,2 por ciento de aciertos cuando se probó con «preguntas estilo licencia», el 60 por ciento requerido) respondiendo correctamente a preguntas de opción múltiple y abiertas y razonando sobre sus respuestas.

Med-PaLM 2 es aún más preciso, pero sigue teniendo lagunas

En el marco del evento «The Check Up» de Google Health, Google anunció la continuación del desarrollo de Med-PaLM. La versión actual, Med-PaLM 2, puede responder a preguntas de exámenes médicos a un «nivel de médico experto» y es precisa el 85% de las veces.

desempenho do google palm 2
Rendimiento de Med-PaLM 2 en preguntas sobre licencias médicas comparado con otros modelos lingüísticos. Med-PaLM 2 consigue más del 85% de respuestas correctas, mientras que todos los demás modelos lingüísticos se quedan por debajo de la marca crítica del 60%. Imagen: Google AI

Esto significa que Med-PaLM 2 consigue un 18% más de rendimiento que su predecesor y se sitúa muy por encima del nivel de modelos lingüísticos comparables en tareas médicas. Sin embargo, el equipo aún ve un margen de mejora significativo para garantizar que Med-PaLM 2 cumpla los estándares de calidad de Google. En cuanto a los cambios técnicos con respecto a Med-PaLM 1, el equipo no se pronuncia.

Med-PaLM 2 se sometió a pruebas con 14 criterios, como la veracidad científica, la exactitud, el consenso médico, el razonamiento, la parcialidad y el daño, evaluados por médicos y no médicos de diversas procedencias y países. El equipo encontró «lagunas significativas a la hora de responder a preguntas médicas», sin dar más detalles sobre las deficiencias.

En colaboración con equipos de investigación, Google tiene previsto seguir desarrollando Med-PaLM para colmar estas lagunas y entender cómo el modelado del lenguaje puede mejorar la asistencia sanitaria. El siguiente vídeo muestra el anuncio de Med-PaLM 2 a partir del minuto 16:30 aproximadamente.