HumanRF permet de créer des avatars 3D photoréalistes. Il s’agit d’une start-up spécialisée dans l’IA pour les médias synthétiques.
Les Neural Radiance Fields (NeRF) apprennent des représentations 3D à partir de photos ou de vidéos et peuvent restituer des objets individuels ou des scènes entières. Certaines variantes se spécialisent dans les scènes ou les objets en mouvement, d’autres expérimentent les capacités d’édition et d’autres encore tentent de rendre les personnes de manière photoréaliste. Les NeRF sont considérés comme l’une des technologies d’IA qui joueront un rôle important dans les graphiques 3D, les vidéoconférences ou, à l’avenir, le métavers.
Des chercheurs de la start-up d’IA pour les médias synthétiques Synthesia, de l’UCL de Londres et de l’Université technique de Munich présentent HumanRF, une méthode d’apprentissage des NeRF à haute résolution à partir d’êtres humains en mouvement.
ActorsHQ est un ensemble de données de personnes en mouvement d’une résolution de 12 MP
L’équipe entraîne HumanRF sur son propre ensemble de données. ActorsHQ se compose de 39 765 images de mouvements humains dynamiques capturés à l’aide de vidéos multi-vues. L’équipe a utilisé un système propriétaire d’acquisition de caméras multiples combiné à une matrice de LED pour l’éclairage global. Le système de caméras se compose de 160 caméras Ximea 12 MP fonctionnant à 25 images par seconde et d’une matrice d’éclairage à 420 LED.
Par conséquent, ActorsHQ fournit des données d’une résolution beaucoup plus élevée que les anciens ensembles de données, qui atteignent une résolution maximale de 4 MP. L’ensemble de données contient quatre femmes et quatre hommes effectuant 20 mouvements choisis au hasard.
HumanRF peut apprendre de longues séquences de mouvements avec une grande qualité
Avec HumanRF, l’équipe présente une méthode NeRF qui capture ces données à haute résolution et obtient des reconstructions temporellement cohérentes d’acteurs humains, même pour de longues séquences, tout en étant capable d’afficher des détails à haute résolution. L’équipe s’est inspirée de l’Instant-NGP de Nvidia, mais ajoute une dimension temporelle aux encodages utilisés.
Les résultats sont impressionnants et l’équipe espère que HumanRF et l’ensemble de données ActorsHQ, qui a également été publié, permettront de réaliser de nouvelles avancées dans la reconstruction photoréaliste d’humains virtuels. À l’avenir, l’équipe prévoit d’explorer des méthodes permettant de contrôler l’articulation des acteurs formés. Cela pourrait permettre à Synthesia de faire évoluer ses propres produits, de simples enregistrements en 2D à des avatars dynamiques en 3D.
L’équipe prévoit de mettre le code et l’ensemble des données à disposition sur lesite web du projet HumanRF. Vous y trouverez plus d’informations et d’exemples.