HumanRF permite crear avatares fotorrealistas en 3D. Detrás hay una empresa de IA para medios sintéticos.

Los Neural Radiance Fields (NeRF) aprenden representaciones 3D a partir de fotos o vídeos y pueden renderizar objetos individuales o escenas enteras. Algunas variantes se especializan en escenas u objetos en movimiento, otras experimentan con capacidades de edición y otras intentan renderizar personas de forma fotorrealista. Las NeRF se consideran una de las tecnologías de IA que desempeñarán un papel importante en los gráficos 3D, las videoconferencias o, en el futuro, el metaverso.

Investigadores de la start-up de IA para medios sintéticos Synthesia, la UCL de Londres y la TU de Múnich presentan ahora HumanRF, un método para aprender NeRFs de alta resolución a partir de humanos en movimiento.

ActorsHQ es un conjunto de datos de 12 MP de resolución de personas en movimiento

El equipo está entrenando HumanRF con su propio conjunto de datos. ActorsHQ consta de 39.765 fotogramas de movimiento humano dinámico capturados mediante vídeo multivista. El equipo utilizó un sistema propio de adquisición de múltiples cámaras combinado con una matriz de LED para iluminación global. El sistema de cámaras consta de 160 cámaras Ximea de 12 MP que funcionan a 25 fotogramas por segundo y una matriz de iluminación de 420 LED.

O ActorsHQ inclui oito pessoas de alta qualidade. O HumanRF permite que a equipe aprenda os movimentos capturados com alta qualidade. | Imagem: Synthesia
ActorsHQ cuenta con ocho personas de gran calidad. HumanRF permite al equipo aprender los movimientos captados con gran calidad. | Imagen: Synthesia

Como resultado, ActorsHQ proporciona datos con una resolución mucho mayor que los conjuntos de datos anteriores, que alcanzan una resolución máxima de 4 MP. El conjunto de datos contiene cuatro mujeres y cuatro hombres que realizan 20 movimientos seleccionados al azar.

HumanRF puede aprender secuencias largas de movimientos con gran calidad

Con HumanRF, el equipo presenta un método NeRF que captura estos datos de alta resolución y obtiene reconstrucciones temporalmente coherentes de actores humanos, incluso para secuencias largas, al tiempo que es capaz de mostrar detalles de alta resolución. El equipo se inspiró en el Instant-NGP de Nvidia, pero añade una dimensión temporal a las codificaciones utilizadas allí.

Los resultados son impresionantes y el equipo espera que HumanRF y el conjunto de datos ActorsHQ, que también se ha publicado, permitan nuevos avances en la reconstrucción fotorrealista de humanos virtuales. En el futuro, el equipo tiene previsto explorar métodos para controlar la articulación de actores entrenados. Esto podría permitir a Synthesia hacer evolucionar sus propios productos de simples grabaciones en 2D a avatares dinámicos en 3D.

El equipo tiene previsto publicar el código y los datos en elsitio web del proyecto HumanRF. Allí encontrará más información y ejemplos.