A OpenAI domina a mídia com o ChatGPT, mas a empresa também está pesquisando outros modelos de IA generativa. Um novo artigo mostra um modelo de texto-para-3D.

No final de 2022, a OpenAI lançou o Point-E, um modelo de IA generativa para texto-para-3D que recebeu pouca atenção dada o enorme sucesso do ChatGPT no mesmo mês. Em parte, isso se deveu ao fato de que o Point-E não produziu resultados particularmente impressionantes.

Com o Point-E, a OpenAI tentou entregar um modelo de texto-para-3D especialmente rápido com base em nuvens de pontos. Quase meio ano depois, os pesquisadores da empresa agora estão apresentando o Shap-E, um sucessor direto.

Shap-E é extremamente rápido e um pouco melhor
Ao contrário do Point-E, o Shap-E não gera uma nuvem de pontos, mas sim parâmetros de funções implícitas que podem ser renderizados como malhas texturizadas e NeRFs. Essencialmente, um codificador converte a entrada de texto ou imagem nessas funções, e um modelo de difusão gera a representação 3D desejada.

exemplos do shap-e da openai
Shap-E e Point-E produzem resultados similares, mas o primeiro é ligeiramente mais rápido e pode ser mais facilmente vinculado a outros métodos. | Imagem: OpenAI

Assim como seu predecessor, a qualidade dessas renderizações às vezes fica muito aquém de alternativas como Dreamfusion, Dreamfields, Magic3D, Dream3D ou CLIP-Mesh. No entanto, enquanto o CLIP-Mesh precisa de 17 minutos, o Dreamfusion precisa de 12 horas e o Dreamfields precisa de até 200 horas para um modelo em uma GPU Nvidia v100, o Shap-E precisa de apenas 13 segundos com entrada de texto e apenas um minuto com entrada de imagem.

O Shap-E pode ser combinado com o DreamFusion

A OpenAI diz que os resultados “destacam o potencial de gerar representações implícitas, especialmente em domínios como o 3D, onde elas podem oferecer mais flexibilidade do que as representações explícitas”.

No entanto, o Shap-E também tem numerosas limitações, como atribuir múltiplos atributos a um objeto ou representar o número correto de objetos. A equipe atribui essas deficiências a dados de treinamento limitados e acredita que elas poderiam ser reduzidas coletando e gerando conjuntos de dados 3D maiores e rotulados. Além disso, a qualidade dos objetos é limitada.

No entanto, para obter melhores resultados, o Shap-E pode ser combinado com outras técnicas de geração de 3D baseadas em otimização. Por exemplo, a equipe mostra que um modelo Shap-E pode ser refinado como um NeRF com DreamFusion.

Se a OpenAI encontrar uma arquitetura adequada, ela deve ser escalonada. Se o Shap-E será utilizado para isso ainda está por ser visto, mas projetos como Objaverse estão criando grandes bancos de dados de dados 3D rotulados.

O código e o modelo estão disponíveis no GitHub.