Stability AI a ajouté des fonctionnalités d’animation à ses modèles d’image avec Stable Diffusion. L’outil vidéo est actuellement disponible uniquement via une API payante.

Le kit de développement pour Stable Animation, une nouvelle façon de créer des images en mouvement, a été annoncé par Stability AI. Le modèle accepte trois types d’entrées différents :

  • avec un texte de base, comme dans Stable Diffusion, Midjourney ou DALL-E 2 ;
  • avec un texte de base et une image comme point de départ pour l’animation ;
  • et avec un texte de base et une vidéo.

Le logiciel semble encore être en phase expérimentale. Au lieu de le proposer via l’un de ses navigateurs, comme DreamStudio ou ClipDrop, Stability AI ne propose qu’un kit de développement logiciel (SDK) et une API payante. Bien sûr, cela n'empêche pas les tiers de proposer le modèle d’animation via leur service.

Script Python requis

Comme les vidéos doivent être générées par un script Python, la manipulation est assez compliquée. Tout comme le modèle d’image, de nombreux paramètres peuvent être définis, tels que les étapes, l’échantillonneur, l’échelle ou la graine. De plus, des fonctionnalités telles que l’outpainting ou l’interpolation du texte de base sont disponibles.

Différents paramètres affectent également le prix. C’est pourquoi il n’y a pas de réponse générale à la question de savoir combien coûte la création d’une vidéo. Les devis de stabilisation varient de 3 à 18 cents américains pour 100 images dans différentes configurations.

Stable Animation est compatible avec Stable Diffusion XL

Stable Animation peut être combiné avec n’importe quelle version de Stable Diffusion. La version standard est 1.5, mais vous pouvez également choisir d’utiliser la nouvelle et améliorée Stable Diffusion XL. De nombreux préréglages de style sont également disponibles, de l’anime à la bande dessinée, du low poly à l’art pixelisé.

La résolution est de 512 x 512 pixels sans ajustement et peut être augmentée à 1024 x 1024 pixels. De plus, un upscaler peut être utilisé. La norme est de 72 images à 12 images par seconde, mais selon la documentation, elle peut être augmentée à l’infini.

Il existe déjà des outils d’animation basés sur Stable Diffusion qui peuvent, par exemple, générer une courte séquence d’images en mouvement par interpolation du texte de base, en modifiant continuellement certaines propriétés de l’entrée. Cependant, selon la démonstration de Stability AI, Stable Animation promet d’être une solution beaucoup plus complète et mature.

Bien qu’il ne soit pas encore possible de produire des films en mouvement en appuyant sur un simple bouton, des projets tels que Stable Animation, associés aux progrès de Runway ML ou à des modèles tels que Phenaki et Imagen Video, montrent la direction vers laquelle l’intelligence artificielle générative visuelle se dirige dans un avenir proche, passant des images statiques aux animations de type GIF.