Les systèmes de conversion de texte en vidéo transforment les mots écrits en images dynamiques. Aujourd’hui, Zeroscope met cette technologie à disposition sous la forme d’un logiciel gratuit.

Zeroscope est dérivé de Modelscope(démo), un modèle de diffusion texte-vidéo multi-niveaux avec 1,7 milliard de paramètres. Il génère du contenu vidéo sur la base de descriptions textuelles. Zeroscope améliore ce concept en offrant une meilleure résolution, sans le filigrane de Shutterstock et en se rapprochant d’un format 16:9.

Le Zeroscope se compose de deux éléments : le Zeroscope_v2 567w, conçu pour la création rapide de contenu avec une résolution de 576×320 pixels pour explorer les concepts vidéo. Les vidéos de haute qualité peuvent être étendues à une résolution « haute définition » de 1024×576 à l’aide du zeroscope_v2 XL. La musique de la vidéo de démonstration suivante a été ajoutée en post-production.

Vidéo : Zeroscope XL

Pour la génération de vidéos, le modèle nécessite 7,9 Go de VRam à une résolution de 576×320 pixels à une fréquence d’images de 30 par seconde, et 15,3 Go de VRam à une résolution de 1024×576 pixels à la même fréquence d’images. Le modèle plus petit devrait donc fonctionner sur de nombreuses cartes graphiques standard.

L’entraînement au Zeroscope a consisté à introduire du bruit de déplacement dans 9 923 clips et 29 769 images marquées, chacun contenant 24 images. Le bruit de déplacement peut impliquer des changements aléatoires d’objets dans les images vidéo, de petits changements dans les durées d’image ou des distorsions minimes.

L’introduction de ce bruit au cours de la formation permet au modèle de mieux comprendre la distribution des données. Le modèle peut ainsi générer une gamme plus variée de vidéos réalistes et interpréter plus efficacement les variations dans les descriptions textuelles.

S’agirait-il d’une compétition open source pour Runway ?

Selon le développeur de Zeroscope « Cerspense », qui a de l’expérience avec Modelscope, il n’est « pas trop difficile » de modifier un modèle avec 24 Go de VRam. Il a supprimé les filigranes de Modelscope pendant le processus de mise au point.

Il décrit son modèle comme étant « conçu pour concurrencer la génération 2 », le modèle commercial de conversion de texte en vidéo proposé par Runway ML. Selon Cerspense, Zeroscope est entièrement gratuit pour le public.

L’artiste et développeur d’IA« dotsimulate » montre d’autres exemples de vidéos générées par ZeroscopeXL dans la vidéo ci-dessous.

Le 567w et le Zeroscope v2 XL peuvent être téléchargés gratuitement sur le site Hugging Face, qui propose également des instructions sur la manière de les utiliser. Une version de Zeroscope sur Colab, comprenant un tutoriel, est disponible ici.

La technologie texte-vidéo peut-elle évoluer aussi rapidement que le texte-image ?

La technologie de conversion de texte en vidéo en est encore à ses débuts. Les vidéos générées par l’IA ne durent généralement que quelques secondes et présentent diverses imperfections visuelles. Les modèles d’image générés par l’IA ont été confrontés à des problèmes similaires au départ, mais ont atteint le photoréalisme en quelques mois. Cependant, la génération de vidéos est beaucoup plus gourmande en ressources, tant pour la formation que pour la génération.

Google a déjà dévoilé Phenaki et Imagen Video, deux modèles de conversion de texte en vidéo capables de générer des clips plus longs, logiquement cohérents et de haute résolution, bien qu’ils n’aient pas encore été commercialisés. Make-a-Video de Meta est également un modèle de conversion de texte en vidéo qui n’a pas encore été publié.

À l’heure actuelle, seul le Gen-2 de Runway est disponible dans le commerce, et il est désormais également disponible sur l’iPhone. Zeroscope marque l’émergence du premier modèle open source haut de gamme.