Los sistemas de conversión de texto en vídeo transforman las palabras escritas en imágenes dinámicas. Ahora, Zeroscope ofrece esta tecnología como software gratuito.

Zeroscope deriva de Modelscope(demo), un modelo de difusión de texto a vídeo multinivel con 1.700 millones de parámetros. Genera contenidos de vídeo basados en descripciones textuales. Zeroscope mejora este concepto ofreciendo mayor resolución, sin la marca de agua de Shutterstock y con una relación de aspecto más cercana a 16:9.

Zeroscope tiene dos componentes: Zeroscope_v2 567w, diseñado para la creación rápida de contenidos con una resolución de 576×320 píxeles para explorar conceptos de vídeo. Los vídeos de alta calidad pueden ampliarse a una resolución de «alta definición» de 1024×576 utilizando zeroscope_v2 XL. La música del siguiente vídeo de demostración se añadió en postproducción.

Vídeo: Zeroscope XL

Para la generación de vídeo, el modelo requiere 7,9 GB de VRam a una resolución de 576×320 píxeles con una frecuencia de imagen de 30 por segundo, y 15,3 GB de VRam a una resolución de 1024×576 píxeles con la misma frecuencia de imagen. Así pues, el modelo más pequeño debería funcionar en muchas tarjetas gráficas estándar.

En el entrenamiento de Zeroscope se introdujo ruido de desplazamiento en 9.923 clips y 29.769 fotogramas etiquetados, cada uno de los cuales contenía 24 fotogramas. El ruido de desplazamiento puede consistir en cambios aleatorios de los objetos dentro de los fotogramas de vídeo, pequeños cambios en los tiempos de los fotogramas o distorsiones mínimas.

Esta introducción de ruido durante el entrenamiento mejora la comprensión del modelo de la distribución de los datos. Como resultado, el modelo puede generar una gama más diversa de vídeos realistas e interpretar con mayor eficacia las variaciones en las descripciones de texto.

¿Podría ser una competencia de código abierto a Runway?

Según el desarrollador de Zeroscope «Cerspense», que tiene experiencia con Modelscope, «no es demasiado difícil» ajustar un modelo con 24 GB de VRam. Ha eliminado las marcas de agua de Modelscope durante el proceso de ajuste.

Describe su modelo como «diseñado para competir con la generación 2», el modelo comercial de texto a vídeo ofrecido por Runway ML. Según Cerspense, Zeroscope es totalmente gratuito para uso público.

El artista y desarrollador de IA«dotsimulate» muestra más ejemplos de vídeos generados por ZeroscopeXL en el siguiente vídeo.

Tanto 567w como Zeroscope v2 XL pueden descargarse gratuitamente de Hugging Face, que también ofrece instrucciones sobre cómo utilizarlos. Una versión de Zeroscope en Colab, que incluye un tutorial, está disponible aquí.

¿Puede la tecnología de texto a vídeo evolucionar tan rápido como la de texto a imagen?

La tecnología de texto a vídeo aún está en sus primeras fases. Los vídeos generados por IA suelen durar sólo unos segundos y presentan varias imperfecciones visuales. Sin embargo, los modelos de IA de imágenes se enfrentaron a problemas similares al principio, pero lograron el fotorrealismo en cuestión de meses. Sin embargo, la generación de vídeos requiere muchos más recursos, tanto para el entrenamiento como para la generación.

Google ya ha presentado Phenaki e Imagen Video, dos plantillas de texto a vídeo capaces de generar clips más largos, lógicamente coherentes y de alta resolución, aunque todavía no han salido al mercado. Meta's Make-a-Video es también una plantilla de texto a vídeo que aún no ha salido al mercado.

En la actualidad, sólo se comercializa Gen-2 de Runway, que ahora también está disponible para iPhone. Zeroscope marca la aparición de la primera plantilla de código abierto de alta calidad.