Um novo sistema de IA desenvolvido pela Google Research e pela Google DeepMind transforma fotos em cenas 3D realistas em questão de segundos, desde que se saiba a posição da câmera.

O sistema, denominado Bolt3D, converte fotos em cenas tridimensionais completas em apenas 6,25 segundos, utilizando uma GPU Nvidia H100 – uma tarefa que normalmente levaria minutos ou até horas para outros métodos.

O Bolt3D identifica primeiramente a posição de cada pixel no espaço 3D e define a cor de cada um. Em seguida, um segundo modelo determina o grau de transparência de cada ponto e a forma como ele se estende pelo espaço.

Google Research DeepMind Bolt3D Architecture

Utilizando modelos de difusão, decodificadores VAE e uma técnica aprimorada de decodificação geométrica, o Bolt3D cria uma cena 3D renderizável a partir das imagens. O sistema emprega uma abordagem conhecida como “Gaussian splatting” para organizar os dados, utilizando funções gaussianas em grids 2D que armazenam informações sobre posição, cor, transparência e distribuição espacial. Assim, o usuário pode visualizar a cena de qualquer ângulo em tempo real, enquanto áreas transparentes são removidas e os dados remanescentes são comprimidos para manter os arquivos gerenciáveis.

Abrindo novos caminhos na geração de cenas 3D

Testes demonstram que o Bolt3D apresenta desempenho significativamente superior a métodos rápidos existentes, como o Flash3D e o DepthSplat. Onde os sistemas anteriores apenas desfocavam áreas não visíveis, o Bolt3D gera conteúdo realista até mesmo para partes ocultas da cena.

Essa capacidade advém de um modelo de IA especializado em dados espaciais. Os pesquisadores descobriram que modelos tradicionais, treinados apenas com fotografias, não conseguem lidar com a complexidade das informações tridimensionais.

Para desenvolver essa nova capacidade, a equipe treinou o Bolt3D com cerca de 300 mil cenas 3D, combinando reconstruções baseadas em fotos e modelos gerados por computador. Esse extenso banco de dados permite que o sistema faça estimativas fundamentadas sobre áreas da cena que não estão completamente visíveis.

Apesar dos avanços, o sistema ainda apresenta limitações. Ele encontra dificuldades com detalhes extremamente finos (menos de oito pixels de largura), materiais transparentes como vidro e superfícies altamente refletivas. Além disso, a qualidade dos resultados depende fortemente de como as fotografias foram capturadas e do tamanho final exigido para a cena.

Mesmo com essas restrições, o Bolt3D representa um avanço significativo na criação de conteúdo 3D. O artigo sugere que a sua velocidade pode tornar viável, pela primeira vez, a geração em larga escala de cenas tridimensionais. Embora ainda não haja informações sobre a disponibilidade pública, interessados podem obter mais detalhes e testar demonstrações interativas acessando o site do projeto.

Esse desenvolvimento ocorre em um momento em que a Stability AI lança seu próprio sistema, o SPAR3D, que também gera objetos 3D a partir de imagens únicas com grande rapidez. A principal diferença é que, enquanto o SPAR3D trabalha com objetos individuais, o Bolt3D é capaz de processar cenas inteiras.

Vídeo: Szymanowicz et al.