DreamActor-M1 da Bytedance revoluciona o controle de expressões faciais e movimentos corporais em vídeos gerados por IA

A Bytedance apresentou o DreamActor-M1, um novo sistema de inteligência artificial que permite aos usuários controlar com precisão as expressões faciais e os movimentos corporais em vídeos gerados. Utilizando uma técnica denominada “orientação híbrida”, o sistema combina múltiplos sinais de controle para oferecer um desempenho aprimorado que supera limitações comuns em tecnologias anteriores.

Imagem relacionada ao DreamActor-M1

Como funciona o DreamActor-M1

A arquitetura do sistema é dividida em três componentes principais. No núcleo, um codificador facial modifica expressões de forma independente da identidade ou da posição da cabeça. Além disso, os movimentos de cabeça são gerenciados por meio de um modelo em 3D que utiliza esferas coloridas para direcionar o olhar e orientar a rotação, enquanto o movimento corporal conta com um sistema de esqueleto 3D com uma camada adaptativa, que se ajusta às diferentes estruturas corporais para gerar movimentos mais naturais.

A demonstração do sistema mostra como as expressões faciais e o áudio de um vídeo podem ser mapeados tanto para um personagem animado quanto para uma pessoa real. O DreamActor-M1 processa os movimentos corporais e as expressões faciais separadamente e, em seguida, os integra em um transformador de difusão, criando animações com um realismo surpreendente.

Diagrama detalhado do sistema DreamActor-M1

Treinamento e Performance

Durante a fase de treinamento, o modelo aprende a partir de imagens capturadas em diversos ângulos. Essa metodologia possibilita a geração de novos pontos de vista a partir de um único retrato, preenchendo inteligentemente detalhes ausentes, como roupas e poses. O DreamActor-M1 cria múltiplas visualizações a partir de uma imagem de referência e, ao separar o processamento dos movimentos faciais e corporais antes de combiná-los, consegue produzir vídeos animados com altos níveis de realismo.

Diagrama de pipeline para síntese de vídeos animados

O treinamento do modelo ocorre em três estágios: inicialmente, o sistema trabalha movimentos básicos de corpo e cabeça; em seguida, incorpora expressões faciais controladas com precisão; e, por fim, otimiza a integração de ambos para alcançar resultados mais coordenados. A Bytedance informa que o modelo foi treinado com 500 horas de vídeo, com segmentos equilibrados entre filmagens de corpo inteiro e de meia figura. Segundo os pesquisadores, o DreamActor-M1 supera sistemas similares – inclusive alguns produtos comerciais – em termos de qualidade visual e precisão no controle dos movimentos.

Limitações e Perspectivas Futuras

Apesar dos avanços, o sistema ainda enfrenta limitações. O DreamActor-M1 não é capaz de lidar com movimentos dinâmicos de câmera, interações com objetos ou diferenças extremas nas proporções corporais entre a origem e o destino. Transições complexas em cenas também apresentam desafios para a tecnologia atual.

A Bytedance, empresa responsável pelo TikTok, está simultaneamente desenvolvendo diversos projetos de animação de avatares através da inteligência artificial. No início deste ano, a companhia lançou o OmniHuman-1, que já está disponível como ferramenta de sincronização labial na plataforma Dreamina do CapCut, demonstrando a rapidez com que a pesquisa é transformada em soluções práticas para os usuários. Outros projetos em andamento incluem a série de vídeos com IA inspirada em Goku e o gerador de retratos InfiniteYou, que possibilita a criação de variações ilimitadas de fotografias.

Resumo

  • A Bytedance desenvolveu o DreamActor-M1, um sistema de IA que gera vídeos a partir de uma única foto, utilizando três módulos para o controle de expressões faciais, movimentos da cabeça e postura corporal.
  • O sistema é treinado com 500 horas de vídeo em três etapas: aprendizado de movimentos básicos, adição de expressões faciais precisas e a integração de ambos, resultando em um desempenho superior em comparação com modelos similares.
  • Embora apresente avanços significativos, a tecnologia ainda não consegue lidar com movimentos dinâmicos de câmera, interações com objetos ou variações extremas nas formas corporais.