OpenAI lidera en los medios de comunicación con ChatGPT, pero la empresa también está investigando otros modelos generativos de IA. Un nuevo artículo presenta un modelo de texto a 3D.
A finales de 2022, OpenAI lanzó Point-E, un modelo generativo de IA para texto a 3D que recibió poca atención debido al enorme éxito de ChatGPT en el mismo mes. En parte, esto se debió a que Point-E no produjo resultados particularmente impresionantes.
Con Point-E, OpenAI intentó proporcionar un modelo especialmente rápido para texto a 3D basado en nubes de puntos. Casi medio año después, los investigadores de la empresa están presentando Shap-E, un sucesor directo.
Shap-E es extremadamente rápido y un poco mejor A diferencia de Point-E, Shap-E no genera una nube de puntos, sino parámetros de funciones implícitas que se pueden representar como mallas texturizadas y NeRFs. Básicamente, un codificador convierte la entrada de texto o imagen en estas funciones, y un modelo de difusión genera la representación 3D deseada.
Al igual que su predecesor, la calidad de estas representaciones a veces queda muy por debajo de alternativas como Dreamfusion, Dreamfields, Magic3D, Dream3D o CLIP-Mesh. Sin embargo, mientras que CLIP-Mesh necesita 17 minutos, Dreamfusion necesita 12 horas y Dreamfields necesita hasta 200 horas para un modelo en una GPU Nvidia V100, Shap-E solo necesita 13 segundos con entrada de texto y solo un minuto con entrada de imagen.
El Shap-E se puede combinar con DreamFusion
OpenAI afirma que los resultados «resaltan el potencial de generar representaciones implícitas, especialmente en dominios como el 3D, donde pueden ofrecer más flexibilidad que las representaciones explícitas».
Sin embargo, el Shap-E también tiene numerosas limitaciones, como asignar múltiples atributos a un objeto o representar el número correcto de objetos. El equipo atribuye estas deficiencias a datos de entrenamiento limitados y cree que podrían reducirse recopilando y generando conjuntos de datos 3D más grandes y etiquetados. Además, la calidad de los objetos es limitada.
Sin embargo, para obtener mejores resultados, el Shap-E se puede combinar con otras técnicas de generación 3D basadas en optimización. Por ejemplo, el equipo muestra que un modelo Shap-E se puede refinar como un NeRF con DreamFusion.
Si OpenAI encuentra una arquitectura adecuada, se debería escalar. Aún está por verse si Shap-E se utilizará para esto, pero proyectos como Objaverse están creando grandes bases de datos de datos 3D etiquetados.
El código y el modelo están disponibles en GitHub.