Pesquisadores da Microsoft apresentam o CoDi, um modelo de IA com difusão componível que pode processar e gerar conteúdo simultaneamente em várias modalidades, incluindo texto, imagens, vídeo e áudio.

O CoDi (Composable Diffusion) é apresentado pelo projeto i-Code da Microsoft, que tem como objetivo desenvolver uma IA multimodal integrativa e componível. Trata-se de um modelo de IA multimodal que pode processar e gerar conteúdo simultaneamente em várias modalidades, incluindo texto, imagens, vídeo e áudio. Esse modelo difere dos sistemas tradicionais de IA generativa, que estão limitados a modalidades de entrada específicas.

Devido à escassez de conjuntos de dados de treinamento para a maioria das combinações de modalidades atuais, os pesquisadores utilizaram uma estratégia de alinhamento que corresponde às modalidades tanto no espaço de entrada quanto no espaço de saída. Como resultado, o CoDi pode condicionar qualquer combinação de entradas e gerar qualquer conjunto de modalidades, mesmo aquelas que não estão presentes nos dados de treinamento.

Desafios no desenvolvimento de IA cruzada de modalidades

Ao abordar as limitações dos modelos de IA tradicionais de uma única modalidade, o CoDi oferece uma solução para o processo muitas vezes complicado e lento de combinar modelos generativos específicos de cada modalidade.

Este novo modelo utiliza uma estratégia única de geração componível que estabelece uma ponte de alinhamento no processo de difusão e facilita a geração sincronizada de modalidades entrelaçadas, como vídeo e áudio temporalmente alinhados.

Vídeo: Microsoft

O processo de treinamento do CoDi também é distinto. Ele envolve projetar modalidades de entrada, como imagens, vídeo, áudio e linguagem, em um espaço semântico comum. Isso permite o processamento flexível de entradas multimodais e, com um módulo de atenção cruzada e um codificador de ambiente, ele é capaz de gerar simultaneamente qualquer combinação de modalidades de saída.

“urso de pelúcia em um skate, 4k, alta resolução”

Os pesquisadores fornecem exemplos das capacidades do CoDi, demonstrando sua habilidade de gerar vídeo e áudio sincronizados a partir de prompts separados de texto, áudio e imagem. Em um exemplo, as entradas incluíam o prompt de texto “urso de pelúcia em um skate, 4k, alta resolução”, uma imagem da Times Square e o som da chuva.

O CoDi gerou um vídeo curto, embora de baixa qualidade, de um urso de pelúcia andando de skate na chuva na Times Square, acompanhado pelos sons sincronizados da chuva e dos ruídos da rua.

As aplicações potenciais do CoDi são numerosas. Os pesquisadores destacam suas possíveis utilizações em setores como educação e acessibilidade para pessoas com deficiências.

Nosso trabalho marca um passo significativo em direção a interações humano-computador mais envolventes e holísticas, estabelecendo uma base sólida para investigações futuras em inteligência artificial generativa.

Do Artigo

Com conteúdo do The Decoder.