Nvidia convierte la difusión estable en un modelo de texto a vídeo, genera vídeo de alta resolución y muestra cómo puede personalizarse el modelo.
El modelo generativo de IA de Nvidia se basa en modelos de difusión y añade una dimensión temporal que permite sintetizar imágenes alineadas en el tiempo a lo largo de varios fotogramas. El equipo entrena un modelo de vídeo para generar varios minutos de vídeo de viajes en coche a una resolución de 512 x 1.024 píxeles, consiguiendo SOTA en la mayoría de las pruebas de referencia.
Además de esta demostración, especialmente relevante para la investigación sobre conducción autónoma, los investigadores muestran cómo un modelo de difusión estable existente puede transformarse en un modelo de vídeo.
Nvidia convierte Stable Diffusion en un modelo de texto a vídeo
Para ello, el equipo entrena Stable Diffusion con datos de vídeo durante un breve periodo de tiempo en un paso de ajuste fino y, a continuación, añade capas temporales adicionales detrás de cada capa espacial existente en la red y las entrena también con los datos de vídeo. Además, el equipo entrena los escaladores temporales para generar vídeos de resolución 1.280 x 2.048 generados a partir de mensajes de texto.
Con la difusión estable como base para el modelo de vídeo, el equipo no tiene que entrenar un nuevo modelo desde cero y puede beneficiarse de los recursos y métodos existentes. Por ejemplo, aunque el conjunto de datos WebVid-10M utilizado sólo contiene vídeos del mundo real, el modelo también puede generar vídeos artísticos gracias al modelo de difusión estable subyacente. Todos los vídeos duran entre 3,8 y 4,7 segundos, dependiendo de la frecuencia de imagen.
Los vídeos de difusión estable pueden personalizarse con Dreambooth
Al utilizar Stable Diffusion como base para el modelo de vídeo, el equipo no tiene que entrenar un nuevo modelo desde cero, sino que puede aprovechar los conocimientos y métodos existentes. Por ejemplo, aunque el conjunto de datos WebVid-10M utilizado contiene vídeos del mundo real, el modelo también puede generar vídeos artísticos gracias al modelo Stable Diffusion subyacente. Todos los vídeos duran entre 3,8 y 4,7 segundos, dependiendo de la frecuencia de imagen.
El equipo de Nvidia demuestra que Dreambooth también funciona con el modelo Stable Diffusion específico para vídeo, generando vídeos con objetos que no formaban parte de los datos de entrenamiento originales. Esto abre nuevas posibilidades a los creadores de contenidos, que podrían utilizar DreamBooth para personalizar sus contenidos de vídeo.
Hay más ejemplos en la página del proyecto Nvidia Video LDM. El modelo no está disponible, pero uno de los autores del artículo es Robin Rombach, uno de los responsables de Stable Diffusion y Stability AI. Así que quizá veamos pronto una implementación de código abierto.