Sistemas de texto para vídeo transformam palavras escritas em visuais dinâmicos. Agora, o Zeroscope está disponibilizando essa tecnologia como um software gratuito.

O Zeroscope é derivado do Modelscope (demo), um modelo de difusão de texto para vídeo em vários níveis com 1,7 bilhão de parâmetros. Ele gera conteúdo de vídeo com base em descrições textuais. O Zeroscope aprimora esse conceito, oferecendo maior resolução, sem a marca d'água do Shutterstock e mais próximo da proporção de 16:9.

O Zeroscope possui dois componentes: Zeroscope_v2 567w, projetado para criação rápida de conteúdo com uma resolução de 576×320 pixels para explorar conceitos de vídeo. Vídeos de alta qualidade podem ser ampliados para uma resolução “alta definição” de 1024×576 usando o zeroscope_v2 XL. A música no vídeo de demonstração a seguir foi adicionada na pós-produção.

Vídeo: Zeroscope XL

Para a geração de vídeo, o modelo requer 7,9 GB de VRam em uma resolução de 576×320 pixels com uma taxa de quadros de 30 por segundo, e 15,3 GB de VRam em uma resolução de 1024×576 pixels com a mesma taxa de quadros. Portanto, o modelo menor deve funcionar em muitas placas gráficas padrão.

O treinamento do Zeroscope envolveu a introdução de ruído de deslocamento em 9.923 clipes e 29.769 quadros marcados, cada um contendo 24 quadros. O ruído de deslocamento pode envolver mudanças aleatórias nos objetos dentro dos quadros de vídeo, pequenas alterações nos tempos de quadros ou distorções mínimas.

Essa introdução de ruído durante o treinamento aprimora a compreensão do modelo sobre a distribuição dos dados. Como resultado, o modelo pode gerar uma variedade mais diversa de vídeos realistas e interpretar de forma mais eficaz as variações nas descrições de texto.

Seria esta uma concorrência de código aberto para o Runway?

De acordo com o desenvolvedor do Zeroscope, “Cerspense”, que tem experiência com o Modelscope, não é “muito difícil” ajustar um modelo com 24 GB de VRam. Ele removeu as marcas d'água do Modelscope durante o processo de ajuste fino.

Ele descreve seu modelo como “projetado para competir com a geração 2”, o modelo comercial de texto para vídeo oferecido pelo Runway ML. Segundo Cerspense, o Zeroscope é completamente gratuito para uso público.

O artista e desenvolvedor de IA “dotsimulate” mostra mais exemplos de vídeos gerados pelo ZeroscopeXL no vídeo abaixo.

Tanto o 567w quanto o Zeroscope v2 XL podem ser baixados gratuitamente no Hugging Face, que também oferece instruções sobre como utilizá-los. Uma versão do Zeroscope no Colab, incluindo um tutorial, está disponível aqui.

Será que a tecnologia de texto para vídeo pode evoluir tão rapidamente quanto a de texto para imagem?

A tecnologia de texto para vídeo ainda está em seus estágios iniciais. Os vídeos gerados por IA geralmente têm apenas alguns segundos de duração e apresentam várias imperfeições visuais. No entanto, os modelos de IA de imagens enfrentaram problemas semelhantes inicialmente, mas alcançaram a fotorealismo em questão de meses. No entanto, a geração de vídeos é muito mais intensiva em recursos, tanto para treinamento quanto para geração.

O Google já revelou o Phenaki e o Imagen Video, dois modelos de texto para vídeo capazes de gerar clipes de alta resolução, mais longos e logicamente coerentes, embora ainda não tenham sido lançados. O Make-a-Video, da Meta, também é um modelo de texto para vídeo que ainda não foi lançado.

Atualmente, apenas o Gen-2 da Runway está disponível comercialmente, e agora ele também está disponível no iPhone. O Zeroscope marca o surgimento do primeiro modelo de código aberto de alta qualidade.