4DHumansは、ビデオ内の人間の姿勢を追跡し、その形状を3Dで再構築することができる。その背後にあるチームは、多くの応用例を見ており、モデルを公開している。

4DHumansの中核をなすのはHMR 2.0であり、コンピュータビジョンに変換アーキテクチャを使用するというトレンドに沿った、以前の手法(HMR/Human Mesh Recovery)の進化版である。HMR 2.0は、画像中の人間のポーズを追跡するためにビジョン変換器とMLPを利用し、4DHumansシステム全体の基礎となっています。

ビデオGoel et al.

カリフォルニア大学バークレー校の研究チームによると、この方法は、旧来のアプローチと比較して、ビデオトラッキングにおいて新たな高みに到達し、特にスポーツのような、以前は再構成が困難であった珍しいポーズの再構成において、素晴らしいパフォーマンスを発揮する。4DHumansはまた、オリンピックのレスリングのように複数の人物が重なっている場合でも追跡することができる。

4DHumansはロボット工学やバイオメカニクスに応用できる

研究チームは、HMR 2.0の2つの変種を訓練し、HMR 2.0bはより長く、より多くのデータで訓練した。HMR2.0bは、より長く、より多くのデータでトレーニングされたものである。このバリエーションが最も良い結果をもたらし、チームは近々モデルをリリースする予定である。

コンピュータ・ビジョンと自然言語処理の両方において、大規模な事前学習済みモデル(「ベースライン・モデル」とも呼ばれることがある)が広範な二次的応用を見いだし、スケーリング作業を正当化する傾向が現れている。HMR 2.0は、そのような大規模な事前学習済みモデルの1つである。”

記事より

研究チームは、映像中の人物を追跡することに加え、ロボット工学、コンピュータグラフィックス、バイオメカニクス、その他「画像や映像から人体やその動きを分析する必要がある」分野での応用の可能性として、行動認識を挙げている。

モデルのサイズや使用される計算能力についての詳細はまだ明らかにされていない。このプロジェクトの資金の一部は、Stable Diffusionを開発したStablityAI社から提供された。

詳細は4DHumansプロジェクトのページで確認できる。コードとモデルはGitHubで公開されている。