A Stable AI adicionou recursos de animação aos seus modelos de imagem com Stable Diffusion. A ferramenta de vídeo está atualmente disponível apenas através de uma API paga.

O kit de desenvolvimento para Stable Animation, uma nova forma de criar imagens em movimento, foi anunciado pela Stability AI. O modelo aceita três tipos de entrada diferentes:

  • com um prompt de texto, como em Stable Diffusion, Midjourney ou DALL-E 2;
  • com um prompt de texto e uma imagem como ponto de partida para a animação;
  • e com um prompt de texto e vídeo.

O software parece ainda estar em fase experimental. Em vez de oferecê-lo através de um de seus navegadores, como DreamStudio ou ClipDrop, a Stability AI oferece apenas um kit de desenvolvimento de software (SDK) e uma API paga. Claro, isso não impede que terceiros ofereçam o modelo de animação através de seu serviço.

Scripting em Python necessário

Como os vídeos têm que ser gerados por um script Python, o manuseio é bastante complicado. Similar ao modelo de imagem, numerosos parâmetros podem ser definidos, como passos, amostrador, escala ou semente. Além disso, recursos como outpainting ou interpolação de prompt estão disponíveis.

Diferentes parâmetros também afetam o preço. É por isso que não há resposta geral para a pergunta de quanto custa criar um vídeo. As cotações de estabilização variam de 3 a 18 centavos de dólar dos EUA por 100 quadros em diferentes configurações.

A Stable Animation é compatível com a Stable Diffusion XL

A Stable Animation pode ser combinada com qualquer versão da Stable Diffusion. A versão padrão é 1.5, mas você também pode optar por usar a nova e melhorada Stable Diffusion XL. Também estão disponíveis muitos presets de estilo, desde anime a quadrinhos, low poly a pixel art.

A resolução é de 512 x 512 pixels sem ajuste e pode ser aumentada para 1024 x 1024 pixels. Além disso, pode ser usado um upscaler. O padrão é 72 quadros a 12 quadros por segundo, mas de acordo com a documentação, pode ser aumentado para infinito.

Já existem ferramentas de animação baseadas na Stable Diffusion que podem, por exemplo, gerar uma sequência curta de imagens em movimento por interpolação de prompt, ou seja, alterando continuamente certas propriedades da entrada. Mas, julgando pela demonstração da Stability AI, a Stable Animation promete ser uma solução muito mais abrangente e madura.

Embora ainda não seja possível produzir filmes em movimento com um toque de botão, projetos como o Stable Animation, juntamente com o progresso do Runway ML ou modelos como o Phenaki e o Imagen Video, mostram para onde a Inteligência Artificial gerativa visual está se dirigindo no futuro próximo, passando de imagens estáticas para animações semelhantes a GIFs.