Ferramentas, Inteligência Artificial

4D Humans reconstrói e rastreia seres humanos a partir de vídeos

Atualizado em 05/11/2025

Faça parte da comunidade

Entre para nossa lista e receba conteúdos exclusivos

O 4DHumans rastreia a postura humana em vídeos e pode reconstruir sua forma em 3D. A equipe por trás disso vê muitas aplicações e publica o modelo.

No cerne do 4DHumans está o HMR 2.0, uma evolução de um método anterior (HMR / Recuperação de Malha Humana) que segue a tendência de usar arquiteturas de transformadores para visão computacional. O HMR 2.0 utiliza transformadores de visão e MLPs para rastrear poses humanas em imagens, formando a base de todo o sistema 4DHumans, que utiliza essas informações para a reconstrução de poses e formas humanas em 3D.

Video: Goel et al.

De acordo com a equipe da Universidade de Berkeley, o método atinge novos patamares no rastreamento de vídeo em comparação com abordagens antigas, e apresenta um desempenho impressionante, especialmente na reconstrução de poses incomuns que antes eram difíceis de reconstruir, como em esportes. O 4DHumans também é capaz de rastrear várias pessoas, mesmo quando estão sobrepostas, como na luta olímpica.

4DHumans possui aplicações em robótica e biomecânica

A equipe treinou duas variantes do HMR 2.0, sendo que o HMR 2.0b foi treinado por mais tempo e com mais dados. Essa variante produziu os melhores resultados e a equipe planeja lançar os modelos em breve.

“Há uma tendência emergente, tanto em visão computacional quanto em processamento de linguagem natural, de grandes modelos pré-treinados (às vezes também chamados de ‘modelos de base') que encontram amplas aplicações secundárias e, portanto, justificam o esforço de dimensionamento. O HMR 2.0 é um desses grandes modelos pré-treinados.”
Do Artigo

Além de rastrear pessoas em vídeos, a equipe cita o reconhecimento de ações como uma aplicação potencial, bem como aplicações em robótica, gráficos de computador, biomecânica e outros campos onde a “análise da figura humana e seu movimento a partir de imagens ou vídeos é necessária”.

Detalhes sobre o tamanho do modelo ou o poder computacional utilizado ainda não estão disponíveis. Parte do financiamento do projeto veio da StablityAI, a empresa por trás do Stable Diffusion.

Mais detalhes estão disponíveis na página do projeto 4DHumans. O código e, assim que estiverem disponíveis, os modelos estão disponíveis no GitHub.

André Lug

Fundador da Iglu Online e escritor do blog André Lug. Como especialista em Inteligência Artificial e criação de conteúdo, traz conteúdos sobre IA, produtividade e empreendedorismo.

Deixe um comentário Cancelar resposta

Inscreva-se em nossa newsletter