A HumanRF permite avatares 3D fotorrealistas. Por trás dela está uma startup de IA para mídia sintética.

Os Neural Radiance Fields (NeRFs) aprendem representações 3D a partir de fotos ou vídeos e podem renderizar objetos individuais ou cenas inteiras. Algumas variantes se especializam em cenas ou objetos em movimento, outras experimentam com capacidades de edição e outras tentam renderizar pessoas de forma fotorrealista. Os NeRFs são considerados uma das tecnologias de IA que desempenharão um papel importante em gráficos 3D, videoconferência ou, no futuro, no metaverso.

Pesquisadores da startup de IA para mídia sintética Synthesia, da UCL London e da TU Munich apresentam agora a HumanRF, um método para aprender NeRFs de alta resolução a partir de humanos em movimento.

O ActorsHQ é um conjunto de dados de resolução 12 MP de pessoas em movimento

A equipe está treinando a HumanRF em seu próprio conjunto de dados. O ActorsHQ consiste em 39.765 quadros de movimento humano dinâmico capturados usando vídeo de várias visualizações. A equipe usou um sistema de aquisição de câmera múltipla proprietário combinado com uma matriz de LED para iluminação global. O sistema de câmera consiste em 160 câmeras Ximea de 12 MP operando a 25 quadros por segundo e uma matriz de iluminação de 420 LEDs.

O ActorsHQ inclui oito pessoas de alta qualidade. O HumanRF permite que a equipe aprenda os movimentos capturados com alta qualidade. | Imagem: Synthesia
O ActorsHQ inclui oito pessoas de alta qualidade. O HumanRF permite que a equipe aprenda os movimentos capturados com alta qualidade. | Imagem: Synthesia

Como resultado, ActorsHQ fornece dados com uma resolução muito maior do que os conjuntos de dados antigos, que alcançam uma resolução máxima de 4 MP. O conjunto de dados contém quatro mulheres e quatro homens executando 20 movimentos selecionados aleatoriamente.

O HumanRF pode aprender longas sequências de movimentos com alta qualidade

Com o HumanRF, a equipe apresenta um método NeRF que captura esses dados de alta resolução e obtém reconstruções temporalmente consistentes de atores humanos, mesmo para sequências longas, enquanto pode exibir detalhes de alta resolução. A equipe se inspirou no Instant-NGP da Nvidia, mas adiciona uma dimensão temporal às codificações usadas lá.

Os resultados são impressionantes e a equipe espera que o HumanRF e o conjunto de dados ActorsHQ, que também foi lançado, permitam mais avanços na reconstrução fotorrealística de humanos virtuais. No futuro, a equipe planeja explorar métodos para controlar a articulação dos atores treinados. Isso pode permitir que a Synthesia evolua seus próprios produtos, de simples gravações 2D para avatares 3D dinâmicos.

A equipe planeja disponibilizar o código e o conjunto de dados no site do projeto HumanRF. Mais informações e exemplos podem ser encontrados lá.