写実的な3Dアバターを可能にするHumanRF。その背後には、合成メディアのためのAIスタートアップがいる。

Neural Radiance Fields(NeRF)は、写真やビデオから3D表現を学習し、個々のオブジェクトやシーン全体をレンダリングすることができる。シーンやオブジェクトの移動に特化したものや、編集機能を試したもの、フォトリアリスティックに人物をレンダリングしようとするものなどがある。NeRFは、3Dグラフィックスやビデオ会議、あるいは将来的にはメタバースにおいて重要な役割を果たすAI技術のひとつと考えられている。

合成メディアのAIスタートアップであるSynthesia、UCL London、TU Munichの研究者たちは、現在、動いている人間から高解像度のNeRFを学習する手法であるHumanRFを発表している。

ActorsHQは、12MP解像度の動きのある人物のデータセットである。

研究チームはHumanRFを独自のデータセットでトレーニングしている。ActorsHQは、マルチビュービデオを使用して撮影された、人間の動的な動きの39,765フレームで構成されている。研究チームは、独自のマルチカメラ撮影システムとLEDマトリックスを組み合わせたグローバルイルミネーションを使用した。カメラシステムは、毎秒25フレームで動作する160台のXimea 12MPカメラと420個のLED照明マトリクスで構成されている。

O ActorsHQ inclui oito pessoas de alta qualidade. O HumanRF permite que a equipe aprenda os movimentos capturados com alta qualidade. | Imagem: Synthesia
アクターズHQには8人の優秀な人材がいる。HumanRFにより、チームは高画質で撮影された動きを学習することができる|Image: Synthesia

その結果、ActorsHQは、最大解像度4MPに達する旧来のデータセットよりもはるかに高解像度のデータを提供する。このデータセットには、4人の女性と4人の男性が、無作為に選ばれた20の動きを行っている。

HumanRFは長い動きのシーケンスを高品質で学習できる

HumanRFにより、研究チームは、この高解像度データをキャプチャし、高解像度の詳細を表示することができ、長いシーケンスであっても、人間の俳優の時間的に一貫性のある再構成を得るNeRF手法を提示する。研究チームは、NvidiaのInstant-NGPに触発されたが、そこで使用されているエンコーディングに時間的な次元を追加している。

この結果は印象的であり、研究チームは、HumanRFと、同じく公開されたActorsHQデータセットによって、バーチャル・ヒューマンのフォトリアリスティックな再構成がさらに進歩することを期待している。将来的には、訓練されたアクターのアーティキュレーションを制御する方法を研究する予定である。これにより、Synthesiaは自社製品を単純な2D録画からダイナミックな3Dアバターへと進化させることができるだろう。

チームは、コードとデータセットをHumanRFプロジェクトのウェブサイトで公開する予定である。詳しい情報やサンプルはそちらをご覧ください。