Les gens prennent des photos pour de nombreuses raisons, l’une d’entre elles étant d’immortaliser des souvenirs. La prochaine génération de photos-souvenirs pourrait être constituée de NeRF, qui bénéficient d’une amélioration de la qualité à grande vitesse avec Zip-NeRF.

Les chercheurs de Google font la démonstration de Zip-NeRF, un modèle NeRF qui combine les avantages des techniques basées sur les grilles et de mip-NeRF 360, basé sur Mipmap.

Les méthodes de NeRF basées sur des grilles, telles que Instant-NGP, entraînent des scènes 3D jusqu’à huit fois plus rapidement que les autres méthodes de NeRF, mais la qualité de l’image est moindre, car la méthode des grilles entraîne davantage de repliement et de perte de détails dans l’image.

Mip-NeRF 360 traite les sous-volumes avec des informations de profondeur au lieu d’une grille. Cela permet d’obtenir une image plus détaillée avec moins de crénelage, mais le temps d’apprentissage pour une scène en 3D peut être de plusieurs heures.

Le meilleur des deux techniques NeRF

Des chercheurs de Google ont mis au point une méthode qui combine la qualité d’image élevée de mip-NeRF et le temps d’apprentissage rapide des modèles basés sur une grille. Il en résulte des scènes 3D de haute qualité avec moins de repliement, 8 à 76 % d’erreurs d’image en moins, selon la scène, et un temps d’apprentissage 22 fois plus rapide que mip-NeRF 360.

À direita está o zip-NeRF, à esquerda está um método alternativo de NeRF. Os raios da bicicleta mostram significativamente menos aliasing. |Imagem: Barron et al.
À droite, zip-NeRF, à gauche, une autre méthode NeRF. Les rayons de bicyclette présentent un repliement nettement moins important. Image : Barron et al.

Dans les démonstrations, l’équipe de recherche montre des scènes 3D impressionnantes et étendues qui préservent numériquement une maison entière, y compris son jardin. À l’aide d’un casque de réalité virtuelle, il est possible de parcourir la scène dans ses dimensions d’origine, comme la maison réelle, mais en restant statique comme une photographie. Il s’agit là d’une technologie de préservation vraiment puissante.

Pendant l’entraînement, Zip-NeRF assemble la scène en 3D à partir de nombreuses photos individuelles en 2D. Mip-NeRF entraîne cette scène en environ 22 heures, tandis que Zip-NeRF prend environ une heure avec une meilleure qualité d’image. Une combinaison alternative de mip-NeRF 360 et Instant NGP entraîne la scène environ trois fois plus vite, mais la qualité de l’image est nettement inférieure et il y a plus d’artefacts.

Zip-NeRF, mip-NeRF 360 et la version de comparaison « mip-NeRF 360 iNGP » ont été entraînés sur huit GPU Nvidia Tesla V100-SXM2-16 Go, tandis que d’autres modèles de comparaison moins performants dans les benchmarks ont été entraînés sur un seul Nvidia 3090. Mais cela montre au moins que les NeRF se rapprochent de la disponibilité générale.

Consultez notre guide sans code sur le Nvidia Instant-NGP pour apprendre à créer votre propre NeRF et à le visualiser dans la RV. Le logiciel libre Nerfstudio permet également de se lancer facilement dans la production de NeRF.