Metaの研究者たちは、Unreal Engineを使用して新しい写実的な合成データセットを開発しました。これにより、AIビジョンシステムの評価とトレーニングがより制御された堅牢なものとなります。

Metaの研究者は、PUG(Photorealistic Unreal Graphics)と呼ばれる合成画像データセットのファミリーを導入しました。これにより、AIビジョンシステムの評価とトレーニングのための新しい能力を提供することを目指しています。彼らは、高度なリアルタイム3DグラフィックエンジンであるUnreal Engineを使用して写真のような画像データをレンダリングしています。

以前にも合成データセットは作成されてきましたが、研究者はその多くが現実感に欠けていたと述べており、その有用性が制限されていました。Unreal Engineの写実感を活用することで、PUGデータセットは合成データと実世界のデータのギャップを縮小することを目指しています。

研究者は4つのPUGデータセットを提供しています:

  • PUG: Animalsには、さまざまなポーズ、サイズ、異なる環境での200,000枚以上の動物の画像が含まれています。このデータセットは、分布外の頑健性とモデルの表現を研究するために使用できます。
  • PUG: ImageNetには、追加のImageNetの頑健性テストセットとして90,000枚以上の画像が含まれており、姿勢、背景、サイズ、テクスチャ、照明などのさまざまな要因の変更が包括的に含まれています。
  • PUG: SPARには40,000枚以上の画像が含まれており、シーン理解、位置、属性、関係の観点で言語ビジョンモデルを評価するために使用されます。
  • PUG: AR4Tには約250,000枚の画像が含まれており、空間的関係と属性のためのビジョンと言語モデルの微調整に使用されます。

PUGは、ImageNetの主要なモデルにおいて既に脆弱性を示しています

データセットに加えて、研究者はPUG環境を使用して、照明や視点などの要因を正確に指定して、実世界のデータセットでは制御が難しいものを自分で生成することができます。さまざまなドメインをカバーするデータを生成できる能力により、既存のベンチマークと比較して、信頼性の高いビジョンと言語モデルの評価とトレーニングが可能になると、チームは述べています。

ビデオ: Meta

実験では、研究者たちはPUGの能力を評価し、モデルの頑健性と表現の品質を示しました。PUGは、主要なImageNetモデルが姿勢や照明などの要因に対して必ずしも最も頑健ではないことを示しました。また、PUGは、異なるビジョンと言語モデルが画像とテキストの関係をどのように捉えるかを研究することも可能にしました。

詳細な情報やデータについては、PUGプロジェクトのウェブサイトでご確認いただけます。