4DHumans rastrea la postura humana en videos y puede reconstruir su forma en 3D. El equipo detrás de esto ve muchas aplicaciones y publica el modelo.
En el corazón de 4DHumans se encuentra el HMR 2.0, una evolución de un método anterior (HMR/Recuperación de Malla Humana) que sigue la tendencia de utilizar arquitecturas de transformadores para la visión por computadora. El HMR 2.0 utiliza transformadores de visión y MLPs para rastrear posturas humanas en imágenes, formando la base de todo el sistema 4DHumans, que utiliza esta información para la reconstrucción de posturas y formas humanas en 3D.
Según el equipo de la Universidad de Berkeley, este método alcanza nuevos niveles en el seguimiento de vídeo en comparación con enfoques anteriores y presenta un rendimiento impresionante, especialmente en la reconstrucción de posturas inusuales que antes eran difíciles de reconstruir, como en deportes. 4DHumans también es capaz de rastrear a varias personas, incluso cuando se superponen, como en la lucha olímpica.
4DHumans tiene aplicaciones en robótica y biomecánica
El equipo entrenó dos variantes del HMR 2.0, siendo que el HMR 2.0b fue entrenado durante más tiempo y con más datos. Esta variante produjo los mejores resultados y el equipo planea lanzar los modelos próximamente.
«Hay una tendencia emergente tanto en visión por computadora como en procesamiento de lenguaje natural de utilizar grandes modelos preentrenados (a veces también llamados ‘modelos base') que encuentran amplias aplicaciones secundarias y, por lo tanto, justifican el esfuerzo de escalado. El HMR 2.0 es uno de estos grandes modelos preentrenados».
Del artículo.
Además de rastrear personas en videos, el equipo menciona el reconocimiento de acciones como una aplicación potencial, así como aplicaciones en robótica, gráficos por computadora, biomecánica y otros campos donde se requiere «análisis de la figura humana y su movimiento a partir de imágenes o videos».
Los detalles sobre el tamaño del modelo o la potencia computacional utilizada aún no están disponibles. Parte de la financiación del proyecto provino de StablityAI, la empresa detrás de Stable Diffusion.
Más detalles están disponibles en la página del proyecto 4DHumans. El código y, una vez disponibles, los modelos se encuentran en GitHub.