A Nvidia transforma o Stable Diffusion em um modelo de texto para vídeo, gera vídeo de alta resolução e mostra como o modelo pode ser personalizado.
O modelo de IA generativa da Nvidia é baseado em modelos do diffusion e adiciona uma dimensão temporal que permite a síntese de imagens alinhadas ao tempo em vários quadros. A equipe treina um modelo de vídeo para gerar vários minutos de vídeo de passeios de carro com uma resolução de 512 x 1.024 pixels, atingindo SOTA na maioria dos benchmarks.
Além desta demonstração, que é particularmente relevante para a pesquisa de condução autônoma, os pesquisadores mostram como um modelo do diffusion estável existente pode ser transformado em um modelo de vídeo.
Nvidia transforma Stable Diffusion em um modelo de conversão de texto em vídeo
Para fazer isso, a equipe treina a Stable Diffusion com dados de vídeo por um curto período de tempo em uma etapa de ajuste fino e, em seguida, adiciona camadas temporais adicionais por trás de cada camada espacial existente na rede e as treina com os dados de vídeo também. Além disso, a equipe treina upscalers estáveis no tempo para gerar 1.280 x 2.048 vídeos de resolução gerados a partir de prompts de texto.
Com o Stable Diffusion como base para o modelo de vídeo, a equipe não precisa treinar um novo modelo a partir do zero e pode se beneficiar dos recursos e métodos existentes. Por exemplo, embora o conjunto de dados WebVid-10M usado contenha apenas vídeos do mundo real, o modelo também pode gerar vídeos de arte graças ao modelo do stable diffusion subjacente. Todos os vídeos têm entre 3,8 e 4,7 segundos de duração – dependendo da taxa de quadros.
Os vídeos do Stable Diffusion podem ser personalizados com Dreambooth
Ao usar o Stable Diffusion como base para o modelo de vídeo, a equipe não precisa treinar um novo modelo a partir do zero, mas pode aproveitar as habilidades e métodos existentes. Por exemplo, embora o conjunto de dados WebVid-10M usado contenha vídeos do mundo real, o modelo também pode gerar vídeos de arte graças ao modelo Stable Diffusion subjacente. Todos os vídeos têm entre 3,8 e 4,7 segundos de duração, dependendo da taxa de quadros.
A equipe da Nvidia mostra que o Dreambooth também trabalha com o modelo de Difusão Estável específico de vídeo, gerando vídeos com objetos que não faziam parte dos dados de treinamento originais. Isso abre novas possibilidades para os criadores de conteúdo que poderiam usar o DreamBooth para personalizar seu conteúdo de vídeo.
Há mais exemplos na página do projeto Nvidia Video LDM. O modelo não está disponível, mas um dos autores do artigo é Robin Rombach – uma das pessoas por trás da Stable Diffusion e da Stability AI. Então, talvez vejamos uma implementação de código aberto em breve.