O 4DHumans rastreia a postura humana em vídeos e pode reconstruir sua forma em 3D. A equipe por trás disso vê muitas aplicações e publica o modelo.
No cerne do 4DHumans está o HMR 2.0, uma evolução de um método anterior (HMR / Recuperação de Malha Humana) que segue a tendência de usar arquiteturas de transformadores para visão computacional. O HMR 2.0 utiliza transformadores de visão e MLPs para rastrear poses humanas em imagens, formando a base de todo o sistema 4DHumans, que utiliza essas informações para a reconstrução de poses e formas humanas em 3D.
De acordo com a equipe da Universidade de Berkeley, o método atinge novos patamares no rastreamento de vídeo em comparação com abordagens antigas, e apresenta um desempenho impressionante, especialmente na reconstrução de poses incomuns que antes eram difíceis de reconstruir, como em esportes. O 4DHumans também é capaz de rastrear várias pessoas, mesmo quando estão sobrepostas, como na luta olímpica.
4DHumans possui aplicações em robótica e biomecânica
A equipe treinou duas variantes do HMR 2.0, sendo que o HMR 2.0b foi treinado por mais tempo e com mais dados. Essa variante produziu os melhores resultados e a equipe planeja lançar os modelos em breve.
“Há uma tendência emergente, tanto em visão computacional quanto em processamento de linguagem natural, de grandes modelos pré-treinados (às vezes também chamados de ‘modelos de base') que encontram amplas aplicações secundárias e, portanto, justificam o esforço de dimensionamento. O HMR 2.0 é um desses grandes modelos pré-treinados.”
Do Artigo
Além de rastrear pessoas em vídeos, a equipe cita o reconhecimento de ações como uma aplicação potencial, bem como aplicações em robótica, gráficos de computador, biomecânica e outros campos onde a “análise da figura humana e seu movimento a partir de imagens ou vídeos é necessária”.
Detalhes sobre o tamanho do modelo ou o poder computacional utilizado ainda não estão disponíveis. Parte do financiamento do projeto veio da StablityAI, a empresa por trás do Stable Diffusion.
Mais detalhes estão disponíveis na página do projeto 4DHumans. O código e, assim que estiverem disponíveis, os modelos estão disponíveis no GitHub.