Investigadores de Microsoft presentan CoDi, un modelo de IA de difusión componible que puede procesar y generar simultáneamente contenidos en múltiples modalidades, incluidos texto, imágenes, vídeo y audio.

CoDi (Composable Diffusion) ha sido presentado por el proyecto i-Code de Microsoft, cuyo objetivo es desarrollar una IA multimodal integrativa y componible. Se trata de un modelo de IA multimodal que puede procesar y generar contenidos simultáneamente en varias modalidades, como texto, imágenes, vídeo y audio. Este modelo difiere de los sistemas tradicionales de IA generativa, que se limitan a modalidades de entrada específicas.

Debido a la escasez de conjuntos de datos de entrenamiento para la mayoría de las combinaciones actuales de modalidades, los investigadores utilizaron una estrategia de alineación que hace coincidir las modalidades tanto en el espacio de entrada como en el de salida. Como resultado, CoDi puede condicionar cualquier combinación de entradas y generar cualquier conjunto de modalidades, incluso las que no están presentes en los datos de entrenamiento.

Retos del desarrollo de la inteligencia artificial multimodal

Al abordar las limitaciones de los modelos tradicionales de IA monomodal, CoDi ofrece una solución al proceso, a menudo complicado y lento, de combinar modelos generativos específicos de cada modalidad.

Este nuevo modelo utiliza una estrategia única de generación componible que establece un puente de alineación en el proceso de difusión y facilita la generación sincronizada de modalidades entrelazadas, como el vídeo y el audio alineados temporalmente.

El proceso de entrenamiento de CoDi también es distintivo. Consiste en proyectar modalidades de entrada, como imágenes, vídeo, audio y lenguaje, en un espacio semántico común. Esto permite un procesamiento flexible de entradas multimodales y, con un módulo de atención cruzada y un codificador de entorno, es capaz de generar simultáneamente cualquier combinación de modalidades de salida.

«osito de peluche en monopatín, 4k, alta resolución»

Los investigadores ofrecen ejemplos de las capacidades de CoDi, demostrando su capacidad para generar vídeo y audio sincronizados a partir de indicaciones separadas de texto, audio e imagen. En un ejemplo, las entradas incluían el texto «osito de peluche en monopatín, 4k, alta resolución», una imagen de Times Square y el sonido de la lluvia.

CoDi generó un vídeo corto, aunque de baja calidad, de un oso de peluche montando en monopatín bajo la lluvia en Times Square, acompañado de sonidos sincronizados de lluvia y ruidos de la calle.

Las aplicaciones potenciales de CoDi son numerosas. Los investigadores destacan sus posibles usos en sectores como la educación y la accesibilidad para personas con discapacidad.

Nuestro trabajo supone un paso importante hacia interacciones más atractivas y holísticas entre el ser humano y el ordenador, y sienta una base sólida para futuras investigaciones en inteligencia artificial generativa.

Del artículo

Con contenido de The Decoder.