Intelligence artificielle, Outils

Microsoft présente un assistant d’IA multimodal pour la biomédecine

Atualizado em 21/07/2023

Faites partie de la communauté

Rejoignez notre liste de diffusion et recevez du contenu exclusif

Des chercheurs de Microsoft présentent LLaVA-Med, un assistant d’IA multimodal pour la biomédecine capable de traiter des images et du texte.

Un vaste ensemble de paires d’images et de textes biomédicaux a été utilisé pour former le modèle d’IA multimodale. L’ensemble de données comprend notamment des radiographies du thorax, des IRM, des images d’histologie, de pathologie et de tomodensitométrie. Tout d’abord, le modèle apprend à décrire le contenu de ces images et donc les concepts biomédicaux importants. Ensuite, LLaVA-Med (Large Language and Vision Assistant for BioMedicine) est entraîné à l’aide d’un ensemble d’instructions générées par GPT-4.

Cet ensemble de données est créé par GPT-4 sur la base des textes biomédicaux qui contiennent toutes les informations sur chaque image et peuvent être utilisés pour générer des paires question-réponse sur les images. Dans la phase de réglage fin, LLaVA-Med est ensuite entraîné sur les images et les exemples correspondants de GPT-4.

Le résultat est un assistant capable de répondre à des questions sur une image biomédicale en langage naturel.

exemplo da análise da IA na biomedicina — LLaVA-Med comparé à LLaVA. Les deux sont multimodaux, mais le premier est spécialisé dans la biomédecine et fournit donc de meilleures réponses. | Image : Microsoft

LLaVA-Med a été formé en 15 heures

La méthode d’apprentissage utilisée a permis d’entraîner LLaVA-Med sur huit GPU Nvidia A100 en moins de 15 heures. Il est basé sur un transformateur de vision et le modèle de langage Vicuna, lui-même basé sur LLaMA de Meta. Selon l’équipe, le modèle possède « une excellente capacité de conversation multimodale ». Sur trois ensembles de données biomédicales standard pour répondre à des questions visuelles, LLaVA-Med a surpassé les modèles de pointe précédents sur certaines mesures.

Les assistants multimodaux comme LLaVA-Med pourraient un jour être utilisés dans diverses applications biomédicales, telles que la recherche médicale, l’interprétation d’images biomédicales complexes et l’aide à la conversation dans le domaine des soins de santé.

Cependant, la qualité n’est pas encore suffisante : « Bien que nous pensions que LLaVA-Med représente une étape importante vers la construction d’un assistant visuel biomédical utile, nous notons que LLaVA-Med est limité par des hallucinations et un raisonnement profond médiocre, communs à de nombreux LMM », explique l’équipe. Les travaux futurs se concentreront sur l’amélioration de la qualité et de la fiabilité.

De plus amples informations sont disponibles sur GitHub.

André Lug

Fondateur de Iglu Online et écrivain du blog André Lug. En tant qu’expert en gestion de projets et marketing numérique, il fournit des contenus sur la productivité, l’entrepreneuriat, des analyses et des résumés de livres.

Microsoft présente un assistant d’IA multimodal pour la biomédecine

Rejoignez notre liste de diffusion et recevez du contenu exclusif

LLaVA-Med a été formé en 15 heures

André Lug

Laisser un commentaire Annuler la réponse

Abonnez-vous à notre newsletter

OÙ ALLONS-NOUS?