Dans le clip de leur dernier single « DTDTGMGN », les membres du groupe sud-coréen Eternity dansent en parfaite synchronisation sur un rythme de pop bubblegum dans une salle rose fluo décorée d’uniformes d’écoliers et de posters de célébrités. Les mouvements de caméra vertigineux et les changements de scène rapides sont typiques du genre K-pop qui est devenu un phénomène mondial ces dernières années.
« Tenez-moi bien, appuyez-vous sur mon épaule », chante l’un des membres.
Mais les fans du groupe ne peuvent faire aucune de ces choses, physiquement parlant, car aucun des 11 membres d’Eternity n’est réel.
Construit à l’aide de la technologie de l’IA, Eternity est l’un des derniers groupes sud-coréens à franchir la frontière entre divertissement réel et virtuel. Le créateur du groupe et sa société de gestion, Pulse9, estiment que les stars générées par ordinateur présentent un avantage considérable par rapport à leurs homologues réels.
Comme la plupart des groupes populaires de K-pop, Eternity se compose d’un leader, de chanteurs, de rappeurs et de danseurs. Mais un membre en particulier, Zae-in, peut tout faire. « Zae-in possède (une combinaison de) caractéristiques que la plupart des artistes humains auraient du mal à réaliser », a déclaré le PDG de la société, Park Ji-eun. « Elle peut très bien chanter, rapper et être créative en tant que styliste. Et c’est une actrice née »
Grâce à une technologie d’échange de visages en temps réel et à une voix générée par l’IA, Zae-in est incarnée par 10 personnes différentes, dont des acteurs, des chanteurs et des danseurs, qui prêtent leurs talents à son avatar en fonction des besoins. Dans une vidéo publiée sur le compte Instagram de Zae-in, par exemple, elle chevauche habilement un longboard à côté du fleuve Han à Séoul. Pour la vidéo, ses créateurs ont filmé la cascade avec une doublure dont le visage a ensuite été remplacé par celui de Zae-in.
« Il y a la musicienne pop Zae-in, l’actrice Zae-in, la journaliste Zae-in », a déclaré la star virtuelle à CNN lors d’une interview Zoom, au cours de laquelle elle a été jouée par un acteur (bien que Pulse9 ait déclaré que son logiciel d’IA peut recréer la voix de Zae-in et générer des discours sans intervention humaine). « Il y a plusieurs Zae-in, donc notre avantage unique est que nous pouvons faire ce qu’une personne ne peut pas faire
« La seule chose que nous ne pouvons pas faire, c’est donner un autographe », ajoute-t-il, les yeux souriants.
L’échange de visages en temps réel et les premières formes de technologie deepfake existent depuis près de dix ans. Au cours de cette période, des influenceurs virtuels tels que Lil Miquela et le Sud-Coréen Rozy lui-même ont acquis une grande popularité en ligne dans les domaines de la mode et de la musique.
Mais les dernières avancées en matière de vidéo et d’audio générés par l’IA permettent à des entreprises comme Pulse9 de créer plus facilement des personnages virtuels convaincants, tandis que les progrès des programmes d’IA générative comme ChatGPT éliminent la nécessité pour des stars comme Zae-in d’être « jouées » par qui que ce soit.
Comment ils ont été créés
L’équipe de Pulse9 a commencé à donner « vie » à l’éternité en concevant l’apparence de ses membres. L’équipe de Park a créé 101 visages numériques uniques, inspirés de célébrités coréennes existantes, avant de les diviser en quatre catégories – baptisées « sexy », « belle », « intelligente » et « innocente » – et de réduire la sélection à 11 par le biais d’un sondage en ligne.
À l’aide de la technologie deepfake et de la capture de mouvements, Pulse9 a produit le premier clip du groupe (pour accompagner le titre ironique « I’m Real ») en 2021. Les réactions à la vidéo ont été mitigées. De nombreux utilisateurs de réseaux sociaux ont estimé que les expressions faciales des membres du groupe manquaient de naturel et étaient dissociées de leur corps, tandis que d’autres ont évoqué l’effet de la « vallée de l’étrange », selon lequel les spectateurs se sentent mal à l’aise face à des objets qui ressemblent à des humains mais n’en sont pas.
Mais cinq mois plus tard, lorsque Pulse9 a publié le clip suivant d’Eternity, « No Filter », les spectateurs ont remarqué que le groupe était presque indiscernable de la réalité. « Je suis surpris par le réalisme de leur son, et les images semblent plus réalistes que la première chanson », peut-on lire dans le commentaire le plus aimé sur YouTube.
« DTDTGMGN », qui est sorti en octobre dernier, a représenté un autre grand bond en avant en termes de qualité. « Jusqu’à l’année dernière, le visage était la seule partie virtuelle de l’artiste, mais aujourd’hui, nous pouvons créer des images du corps entier grâce à la technologie de l’IA », a déclaré Park, ajoutant que « No Filter » avait également été composée à l’aide de l’IA (bien que des humains aient édité la musique et écrit les paroles).
SM Entertainment, l’agence à l’origine des mégastars de la K-pop telles que Super Junior, Girls’ Generation et Exo, entre autres, a également expérimenté l’IA. En 2020, la société a lancé Aespa, un groupe composé de quatre artistes humains et de leurs pairs virtuels. Après le lancement du groupe, le fondateur de SM, Lee Soo-man, a déclaré que l’avenir du divertissement était fait de « célébrités et de robots ».
Par ailleurs, la société de gestion de BTS, Hybe, a utilisé l’IA pour ajuster la prononciation et le ton de son chanteur, avant de publier l’une de ses chansons en six langues : coréen, anglais, espagnol, chinois, japonais et vietnamien.
Au début de l’année, Metaverse Entertainment, une agence formée par l’éditeur de jeux vidéo Netmarble et la société mère de SM Entertainment, Kakao Entertainment, a lancé un groupe de filles virtuelles, MAVE. Contrairement à Eternity, qui est basé sur des échanges directs de visages, les quatre membres de MAVE ont été créés de toutes pièces à l’aide d’images de synthèse.
Metaverse Entertainment a utilisé la technologie de l’IA pour générer des visages, en mélangeant les caractéristiques et les coiffures jugées les plus désirables dans les quatre personnages finaux. La société a eu recours à la technologie de capture de mouvements pour enregistrer des performances K-pop réelles qu’un programme d’apprentissage profond a utilisé pour animer les vidéos musicales. Les voix du groupe sont en partie humaines et en partie générées par l’IA, a déclaré le directeur technique de Metaverse Entertainment, Kang Sung-ku.
« Notre objectif est de créer des humains virtuels entièrement pilotés par l’IA (qui soient) vraiment crédibles », a-t-il déclaré à CNN.
Le clip du premier single de MAVE, « Pandora », a déjà été visionné 25 millions de fois sur YouTube depuis sa sortie en janvier.
L’avenir de la K-pop ?
Les popstars virtuelles peuvent bénéficier d’un avantage sur les humains lorsqu’il s’agit d’entrer en contact avec leurs fans. Les progrès des programmes de langage de l’IA pourraient permettre aux fans de « parler » à leurs idoles, et même d’établir une relation personnelle avec elles, a déclaré M. Kang.
« Ils se souviendront de ce dont nous avons parlé hier et pourront continuer à évoquer les sujets abordés lors des conversations précédentes », a-t-il déclaré, établissant une comparaison entre les créations de son entreprise en matière d’IA et l’assistant virtuel de l’iPhone, Siri. « Ils se souviendront de vous et vous connaîtront, et ils vous parleront sur la base de ces informations
Metaverse Entertainment expérimente déjà cette idée par le biais d’applications qui permettent aux utilisateurs d’interagir directement avec MAVE. Les membres du groupe parlent actuellement le coréen, l’anglais, le français et l’indonésien, ce qui correspond à des bases de fans et à des marchés cibles importants, mais ils pourraient théoriquement parler n’importe quel nombre de langues.
« Il y a des choses que je ne peux pas dire (même à mes meilleurs amis), mais je pourrais peut-être parler à une IA personnalisée, qui pourrait me réconforter et se soucier de moi », a déclaré Kang. « Je pense que ce sera bénéfique pour tout le monde
Zae-in d’Eternity a déclaré à CNN que « l’avantage unique » des stars virtuelles est qu’elles « peuvent faire ce qu’une personne ne peut pas faire ».
Cette évolution pourrait certainement être bénéfique pour des entreprises comme celle de Kang. L’industrie de la K-pop repose sur un système de formation à forte intensité de main-d’œuvre dans lequel les aspirants sont formés dès leur plus jeune âge, subissant souvent des années de cours de danse et de musique coûteux avant de faire leurs débuts (selon le Wall Street Journal, SM Entertainment a dépensé environ 3 millions de dollars pour lancer Girls Generation sur le marché en 2007) Les agences doivent investir dans des cours, des studios, des services de stylisme et parfois même des soins esthétiques pour les membres potentiels d’un groupe – des coûts qui ne sont pas nécessaires pour les talents virtuels.
De plus, les stars de la pop générées par ordinateur ne tomberont jamais malades, ne vieilliront jamais et ne seront jamais impliquées dans des litiges contractuels ou des scandales de tabloïds. Mais il y a peu de chances que les grandes agences remplacent leurs groupes réels de sitôt, a déclaré M. Kang, reconnaissant que certains secteurs du fandom de la K-pop ont mal réagi aux groupes d’IA.
« La critique portait sur le remplacement des idoles actuelles par des idoles virtuelles – ils pensaient que les idoles actuelles pourraient perdre leur emploi », a déclaré Kang, ajoutant que certains fans préfèreront toujours les artistes humains.
Le créateur d’Eternity, Park, est d’accord, comparant l’essor de l’IA à l’invention de la photographie au XIXe siècle : « De nombreux peintres ont eu peur de la (nouvelle) technologie, mais aujourd’hui nous avons encore des peintres. Je ne pense pas que BTS aura jamais peur des idoles virtuelles – elles ne sont que du nouveau contenu