4DHumans suit la posture humaine dans les vidéos et peut reconstruire leur forme en 3D. L’équipe à l’origine de ce projet y voit de nombreuses applications et publie le modèle.

Au cœur de 4DHumans se trouve HMR 2.0, une évolution d’une méthode précédente (HMR/Human Mesh Recovery) qui suit la tendance à utiliser des architectures de transformation pour la vision par ordinateur. HMR 2.0 utilise des transformateurs de vision et des MLP pour suivre les poses humaines dans les images, formant ainsi la base de l’ensemble du système 4DHumans, qui utilise ces informations pour la reconstruction des poses et des formes humaines en 3D.

Vidéo : Goel et al.

Selon l’équipe de l’UC Berkeley, la méthode atteint de nouveaux sommets en matière de suivi vidéo par rapport aux approches plus anciennes, et donne des résultats impressionnants, en particulier pour la reconstruction de poses inhabituelles qui étaient auparavant difficiles à reconstruire, comme dans le cas des sports. 4DHumans est également capable de suivre plusieurs personnes, même lorsqu’elles se chevauchent, comme dans la lutte olympique.

4DHumans a des applications en robotique et en biomécanique

L’équipe a entraîné deux variantes de HMR 2.0, HMR 2.0b étant entraîné plus longtemps et avec plus de données. Cette variante a donné les meilleurs résultats et l’équipe prévoit de publier les modèles prochainement.

il existe une tendance émergente dans les domaines de la vision par ordinateur et du traitement du langage naturel, qui consiste à créer de grands modèles pré-entraînés (parfois également appelés « modèles de base ») qui trouvent de vastes applications secondaires et justifient ainsi l’effort de mise à l’échelle. HMR 2.0 est l’un de ces grands modèles pré-entraînés »

Extrait de l’article

Outre le suivi de personnes dans des vidéos, l’équipe cite la reconnaissance d’actions comme une application potentielle, ainsi que des applications en robotique, en infographie, en biomécanique et dans d’autres domaines où « l’analyse de la figure humaine et de ses mouvements à partir d’images ou de vidéos est nécessaire ».

Les détails concernant la taille du modèle ou la puissance de calcul utilisée ne sont pas encore disponibles. Le projet a été en partie financé par StablityAI, la société à l’origine de Stable Diffusion.

Plus de détails sont disponibles sur la page du projet 4DHumans. Le code et, une fois disponibles, les modèles sont accessibles sur GitHub.