Nvidia transforme la diffusion stable en un modèle texte-vidéo, génère des vidéos haute résolution et montre comment le modèle peut être personnalisé.
Le modèle d’IA générative de Nvidia est basé sur des modèles de diffusion et ajoute une dimension temporelle qui permet de synthétiser des images alignées dans le temps sur plusieurs images. L’équipe entraîne un modèle vidéo à générer plusieurs minutes de vidéo de trajets en voiture à une résolution de 512 x 1 024 pixels, atteignant la norme SOTA dans la plupart des points de référence.
Outre cette démonstration, particulièrement pertinente pour la recherche sur la conduite autonome, les chercheurs montrent comment un modèle de diffusion stable existant peut être transformé en modèle vidéo.
Nvidia transforme la diffusion stable en un modèle texte-vidéo
Pour ce faire, l’équipe entraîne la diffusion stable avec des données vidéo pendant une courte période dans le cadre d’une étape de réglage fin, puis ajoute des couches temporelles supplémentaires derrière chaque couche spatiale existante dans le réseau et les entraîne également avec les données vidéo. En outre, l’équipe forme des convertisseurs temporels stables pour générer des vidéos d’une résolution de 1 280 x 2 048 à partir d’invites textuelles.
Avec la diffusion stable comme base du modèle vidéo, l’équipe n’a pas besoin de former un nouveau modèle à partir de zéro et peut bénéficier des ressources et méthodes existantes. Par exemple, bien que l’ensemble de données WebVid-10M utilisé ne contienne que des vidéos du monde réel, le modèle peut également générer des vidéos artistiques grâce au modèle de diffusion stable sous-jacent. Toutes les vidéos durent entre 3,8 et 4,7 secondes, en fonction de la fréquence d’images.
Les vidéos de diffusion stable peuvent être personnalisées avec Dreambooth
En utilisant la diffusion stable comme base du modèle vidéo, l’équipe n’a pas besoin de former un nouveau modèle à partir de zéro, mais peut tirer parti des compétences et des méthodes existantes. Par exemple, bien que l’ensemble de données WebVid-10M utilisé contienne des vidéos du monde réel, le modèle peut également générer des vidéos artistiques grâce au modèle de diffusion stable sous-jacent. Toutes les vidéos durent entre 3,8 et 4,7 secondes, en fonction de la fréquence d’images.
L’équipe de Nvidia montre que Dreambooth fonctionne également avec le modèle Stable Diffusion spécifique aux vidéos, générant des vidéos avec des objets qui ne faisaient pas partie des données d’apprentissage originales. Cela ouvre de nouvelles possibilités pour les créateurs de contenu qui pourraient utiliser DreamBooth pour personnaliser leur contenu vidéo.
D’autres exemples sont disponibles sur la page du projet Nvidia Video LDM. Le modèle n’est pas disponible, mais l’un des auteurs de l’article est Robin Rombach, l’une des personnes à l’origine de Stable Diffusion et Stability AI. Peut-être verrons-nous bientôt une implémentation open source.