Si beaucoup craignent un avenir dans lequel les médias générés par l’IA ne pourront plus être distingués des médias traditionnels, détruisant au passage la société et/ou la civilisation, nous n’en sommes pas encore là. La preuve en est une publicité surréaliste pour une bière générée par l’IA qui est devenue virale ce week-end.
Intitulée« Synthetic Summer« , la vidéo de 30 secondes est apparue pour la première fois sur Instagram il y a environ une semaine, créée par Helen Power et Chris Boyle, d’une société de production basée à Londres appelée Privateisland.tv. Le couple n’était pas disponible pour un commentaire avant la publication de cette histoire, mais à en juger par l’aspect de la vidéo, il semble qu’ils l’aient probablement créée en utilisant le nouveau modèle d’IA Gen-2 de Runway, qui peut créer de courts clips vidéo à partir d’instructions écrites, de la même manière que Stable Diffusion peut créer des images fixes.
Dans la vidéo, rythmée par une foule en délire et la chanson « All Star » de Smash Mouth, on voit des simulacres de personnes faisant la fête lors d’un barbecue stéréotypé dans une arrière-cour américaine, qui fusionnent parfois physiquement avec des récipients de bière impressionnistes. Les femmes rient, les mâchoires en feu. Les verres à bière se transforment en canettes. Les grilles enflammées atteignent le statut de tornades de feu en forme de colonne et arpentent la cour. C’est une vision de l’enfer surréaliste qui est à la fois familière et d’une étrangeté impressionnante.
Pourquoi est-ce si étrange ? Pour l’instant, les générateurs de vidéos d’IA sont encore primitifs. Comme leurs créateurs forment les modèles, ils travaillent à partir d’un ensemble de sources beaucoup plus restreint que les modèles de synthèse d’images statiques de l’IA, et les modèles sont beaucoup plus coûteux en termes de calcul. La vision impressionniste des publicités pour la bière provient probablement de l’absorption de l’essence des vraies publicités pour la bière dans l’ensemble de données Gen-2. Runway n’a pas divulgué l’ensemble de données utilisé pour entraîner Gen-2, mais dans l’article consacré à Gen-1 (un modèle antérieur), il cite « un ensemble de données interne de 240 MILLIONS d’images et un ensemble de données personnalisé de 6,4 millions de clips vidéo ».
Nous avons expérimenté Gen-2 (qui se trouve actuellement dans une phase de test fermée), et la génération de clips même étrangement extraterrestres comme ceux-ci nécessite toujours une persévérance humaine, en exécutant et en rejetant de nombreuses générations pour obtenir ne serait-ce qu’un résultat correct. Même dans ce cas, le clip obtenu ne dure que quelques secondes. Dans le cas de Synthetic Summer, Privateisland.tv a généré les clips, sélectionné les meilleurs et assemblé les segments dans une séquence, en y ajoutant de la musique et des effets sonores.
La bière n’est pas le seul produit à faire l’objet d’une publicité fictive de la part de l’IA à des fins mémétiques. Le 24 avril, un dénommé « Pizza Later » a tweeté une vidéo en grande partie générée par l’IA pour un restaurant fictif appelé« Pepperoni Hug Spot« , qui comprend des vidéos déformées de personnes mangeant de la pizza générées par le Gen-2 de Runway. En outre, son créateur aurait généré le script avec GPT-4, utilisé Midjourney pour les images fixes et une voix off d’Eleven Labs. Le tout a été assemblé à l’aide d’Adobe After Effects.
Ces deux œuvres, créées par des humains et assemblées par des humains, montrent que l’IA générative a encore un long chemin à parcourir avant de pouvoir éblouir les masses de manière autonome avec des mèmes qui modifient la société. L’homme est encore au volant de ces œuvres extraterrestres, et nous pouvons éventuellement en tirer un certain réconfort.
Néanmoins, aucune vidéo ne peut égaler la pureté et la majesté de Will Smith mangeant des spaghettis, générée par l’IA, qui restera à jamais dans nos cœurs comme notre première vidéo cauchemardesque générée par l’IA.