Les chercheurs de Meta ont développé de nouveaux ensembles de données synthétiques photoréalistes en utilisant l’Unreal Engine, qui permettent une évaluation et un entraînement plus contrôlés et robustes des systèmes de vision par IA.

Les chercheurs de Meta ont introduit une famille d’ensembles de données d’images synthétiques appelée PUG (Photorealistic Unreal Graphics) qui vise à fournir de nouvelles capacités pour l’évaluation et la formation des systèmes de vision par IA. Ils utilisent l’Unreal Engine, un moteur graphique 3D en temps réel avancé, pour rendre les données d’images photoréalistes.

Alors que des ensembles de données synthétiques ont déjà été créés auparavant, les chercheurs affirment qu’ils manquaient souvent de réalisme, limitant leur utilité. En exploitant le réalisme photographique de l’Unreal Engine, les ensembles de données PUG visent à réduire l’écart entre les données synthétiques et le monde réel.

Les chercheurs présentent quatre ensembles de données PUG :

  • PUG : Animaux contient plus de 200 000 images d’animaux dans diverses poses, tailles et environnements différents. Il peut être utilisé pour étudier la robustesse en dehors de la distribution et les représentations du modèle.
  • PUG : ImageNet propose plus de 90 000 images en tant qu’ensemble de test de robustesse supplémentaire pour ImageNet, contenant un ensemble complet de changements de facteurs tels que la pose, l’arrière-plan, la taille, la texture et l’éclairage.
  • PUG : SPAR, avec plus de 40 000 images, est utilisé pour évaluer les modèles de vision linguistique en matière de compréhension de scène, de position, d’attribut et de relation.
  • PUG : AR4T fournit environ 250 000 images pour le fine-tuning des modèles de vision et de langage pour les relations spatiales et les attributs.

PUG a déjà démontré une faible robustesse sur les principaux modèles d’ImageNet

En plus des ensembles de données, les chercheurs peuvent utiliser l’environnement PUG pour créer leurs propres données, en spécifiant précisément des facteurs tels que l’éclairage et le point de vue qui sont difficiles à contrôler avec des ensembles de données du monde réel. La capacité de générer des données couvrant une variété de domaines permet une évaluation et une formation plus fiables des modèles de vision et de langage par rapport aux références existantes, écrit l’équipe.

Vidéo : Meta

Dans les expérimentations, les chercheurs ont démontré la capacité de PUG à évaluer la robustesse des modèles et la qualité de la représentation : PUG a montré que les principaux modèles d’ImageNet n’étaient pas toujours les plus robustes en ce qui concerne des facteurs tels que la pose et l’éclairage. Il a également permis l’étude de la manière dont différents modèles de vision et de langage capturent les relations entre images et texte.

Plus d’informations et de données sont disponibles sur le site du projet PUG.