「OpenAIはChatGPTでメディアを席巻していますが、会社は他の生成的AIモデルも研究しています。新しい論文では、テキストから3Dへのモデルを紹介しています。
2022年末、OpenAIはPoint-Eというテキストから3Dへの生成モデルを発表しましたが、ChatGPTの大成功に比べるとあまり注目されませんでした。これは、Point-Eが特に印象的な結果を出さなかったための一因でした。
Point-Eでは、OpenAIは特に高速なテキストから点群ベースの3Dモデルを提供しようとしました。半年近く経った今、会社の研究者はその直接の後継であるShap-Eを発表しています。
Shap-Eは非常に高速で、少し優れています Point-Eとは異なり、Shap-Eは点群を生成するのではなく、テクスチャ付きメッシュとNeRFsとしてレンダリングできる暗黙の関数のパラメータを生成します。基本的に、エンコーダーはテキストまたは画像の入力をこれらの関数に変換し、拡散モデルは望ましい3D表現を生成します。」
同様に、これらのレンダリングの品質は、時折、Dreamfusion、Dreamfields、Magic3D、Dream3D、またはCLIP-Meshのような代替品と比べて大幅に劣ることがあります。ただし、CLIP-Meshは17分、Dreamfusionは12時間、DreamfieldsはNvidia v100のGPUモデルでは最大200時間かかりますが、Shap-Eはテキスト入力ではわずか13秒、画像入力では1分しかかかりません。
Shap-Eは、DreamFusionと組み合わせることができます
OpenAIは、結果が「特に3Dのようなドメインで、それらが明示的な表現よりも柔軟性を提供できる場合に、暗黙の表現を生成する可能性を強調しています。
ただし、Shap-Eには多くの制約もあります。たとえば、1つのオブジェクトに複数の属性を割り当てたり、正確なオブジェクトの数を表現したりすることができません。チームは、これらの不足点を制限されたトレーニングデータに帰しており、3Dデータの大規模かつラベル付きデータセットを収集および生成することによってこれらの不足点を軽減できると考えています。さらに、オブジェクトの品質も制限されています。
ただし、より良い結果を得るためには、Shap-Eを最適化ベースの他の3D生成技術と組み合わせることができます。たとえば、チームは、Shap-EモデルをDreamFusionを使用したNeRFのように洗練できることを示しています。
OpenAIが適切なアーキテクチャを見つければ、スケーリングされるでしょう。Shap-Eがそれに使用されるかどうかはまだわかりませんが、Objaverseなどのプロジェクトは大規模なラベル付き3Dデータのデータベースを作成しています。
コードとモデルはGitHubで利用可能です。