Des chercheurs de Microsoft présentent CoDi, un modèle d’IA de diffusion composable capable de traiter et de générer simultanément du contenu dans de multiples modalités, notamment du texte, des images, de la vidéo et de l’audio.
CoDi (Composable Diffusion) est présenté dans le cadre du projet i-Code de Microsoft, qui vise à développer une IA multimodale intégrative et composable. Il s’agit d’un modèle d’IA multimodale qui peut traiter et générer du contenu simultanément dans plusieurs modalités, y compris le texte, les images, la vidéo et l’audio. Ce modèle diffère des systèmes d’IA générative traditionnels, qui sont limités à des modalités d’entrée spécifiques.
En raison de la rareté des ensembles de données d’entraînement pour la plupart des combinaisons actuelles de modalités, les chercheurs ont utilisé une stratégie d’alignement qui fait correspondre les modalités à la fois dans l’espace d’entrée et dans l’espace de sortie. Par conséquent, CoDi peut conditionner n’importe quelle combinaison d’entrées et générer n’importe quel ensemble de modalités, même celles qui ne sont pas présentes dans les données d’entraînement.
Défis liés au développement de l’IA multimodale
En s’attaquant aux limites des modèles traditionnels d’IA à modalité unique, CoDi offre une solution au processus souvent compliqué et lent de combinaison de modèles génératifs spécifiques à une modalité.
Ce nouveau modèle utilise une stratégie de génération composable unique qui établit un pont d’alignement dans le processus de diffusion et facilite la génération synchronisée de modalités entrelacées, telles que la vidéo et l’audio alignées dans le temps.
Le processus de formation CoDi est également particulier. Il consiste à projeter les modalités d’entrée, telles que les images, la vidéo, l’audio et le langage, dans un espace sémantique commun. Cela permet un traitement souple des entrées multimodales et, grâce à un module d’attention croisée et à un encodeur d’environnement, il est possible de générer simultanément n’importe quelle combinaison de modalités de sortie.
« ours en peluche sur un skateboard, 4k, haute résolution »
Les chercheurs donnent des exemples des capacités de CoDi, démontrant sa capacité à générer des vidéos et des sons synchronisés à partir de textes, de sons et d’images distincts. Dans un exemple, les données d’entrée comprenaient le texte « ours en peluche sur un skateboard, 4k, haute résolution », une image de Times Square et le son de la pluie.
CoDi a généré une courte vidéo, de faible qualité, d’un ours en peluche sur un skateboard sous la pluie à Times Square, accompagné des sons synchronisés de la pluie et des bruits de la rue.
Les applications potentielles de CoDi sont nombreuses. Les chercheurs soulignent ses possibilités d’utilisation dans des secteurs tels que l’éducation et l’accessibilité pour les personnes handicapées.
Notre travail marque une étape importante vers des interactions homme-machine plus engageantes et plus holistiques, et pose des bases solides pour les recherches futures en intelligence artificielle générative.
Extrait de l’article
Avec le contenu de The Decoder.