Neuralangelo de Nvidia établit une nouvelle norme pour la reconstruction en 3D de clips vidéo en 2D à l’aide de réseaux neuronaux.
Neuralangelo est un nouveau modèle d’IA développé par Nvidia en partenariat avec l’université Johns Hopkins qui apprend à reconstruire des objets en 3D à partir de clips vidéo et peut les restituer sous forme d’objets tridimensionnels. Par rapport aux méthodes précédentes, Neuralangelo capture beaucoup plus de détails de surface et peut restituer des objets simples, des façades de maison ou des bâtiments entiers avec leur environnement.
Selon Nvidia, les structures 3D générées par Neuralangelo peuvent être importées dans des applications de conception et traitées ultérieurement pour être utilisées dans l’art, les jeux vidéo, la robotique ou les jumeaux numériques industriels.
« Neuralangelo capture plus de détails que les autres méthodes »
« La capacité de Neuralangelo à traduire les textures de matériaux complexes, notamment les tuiles, le verre et le marbre lisse, à partir de vidéos 2D en actifs 3D, surpasse considérablement les méthodes précédentes. La haute fidélité des reconstructions 3D permet aux développeurs et aux professionnels de la création de créer rapidement des objets virtuels utilisables pour leurs projets à partir de vidéos capturées par des smartphones », explique l’entreprise.
Dans les images diffusées par Nvidia, l’équipe montre comment Neuralangelo peut reconstruire tous les objets, de la statue de marbre de Michel-Ange à un panier de fruits, en passant par le parc du campus de la baie de San Francisco de Nvidia.
Le modèle d’IA surmonte les limites des approches précédentes grâce à quelques optimisations et utilise la méthode Instant-NGP de Nvidia pour capturer les détails les plus fins. En conséquence, les objets ont une résolution beaucoup plus élevée et les artefacts qui se produisent avec d’autres méthodes, tels que les erreurs dans les murs lisses, n’apparaissent pas.
Nvidia veut continuer à optimiser Neuralangelo
Nvidia a l’intention de continuer à optimiser Neuralangelo. L’équipe a réalisé toutes les expériences sur un GPU Nvidia V100 et a effectué 500 000 itérations. L’entraînement d’une scène prend environ 16 heures.
Notre méthode échantillonne actuellement des pixels d’images de manière aléatoire sans tenir compte de leurs statistiques et de leurs erreurs. C’est pourquoi nous utilisons de longues itérations d’entraînement pour réduire les stochasties et garantir un échantillonnage suffisant des détails.
Extrait de l’article
À l’avenir, l’équipe espère développer des stratégies d’échantillonnage plus efficaces pour accélérer le processus de formation de Neuralangelo. InstantNeRF de Nvidia a déjà montré que c’était possible.
De plus amples informations sont disponibles sur la page du projet Neuralangelo.