Investigadores de Meta han desarrollado nuevos conjuntos de datos sintéticos fotorrealistas utilizando Unreal Engine, lo que permite una evaluación y entrenamiento más controlados y sólidos de sistemas de visión de inteligencia artificial (IA).

Los investigadores de Meta han presentado una familia de conjuntos de datos de imágenes sintéticas llamada PUG (Photorealistic Unreal Graphics) que tiene como objetivo brindar nuevas capacidades para la evaluación y el entrenamiento de sistemas de visión de IA. Utilizan Unreal Engine, un avanzado motor gráfico 3D en tiempo real, para renderizar datos de imágenes fotorrealistas.

Aunque conjuntos de datos sintéticos ya han sido creados anteriormente, los investigadores afirman que a menudo faltaba realismo, lo que limitaba su utilidad. Al aprovechar el fotorrealismo de Unreal Engine, los conjuntos de datos PUG buscan reducir la brecha entre los datos sintéticos y el mundo real.

Los investigadores presentan cuatro conjuntos de datos PUG:

  • PUG: Animals contiene más de 200,000 imágenes de animales en varias poses, tamaños y entornos diferentes. Puede ser utilizado para estudiar la robustez fuera de la distribución y las representaciones del modelo.
  • PUG: ImageNet cuenta con más de 90,000 imágenes como un conjunto de pruebas adicional de robustez para ImageNet, que incluye un conjunto completo de cambios en factores como la pose, el fondo, el tamaño, la textura y la iluminación.
  • PUG: SPAR, con más de 40,000 imágenes, se utiliza para evaluar modelos de visión de lenguaje en la comprensión de escenas, posición, atributos y relaciones.
  • PUG: AR4T proporciona aproximadamente 250,000 imágenes para el ajuste fino de modelos de visión y lenguaje para relaciones espaciales y atributos.

PUG ya ha demostrado una baja robustez en los modelos líderes de ImageNet

Además de los conjuntos de datos, los investigadores pueden utilizar el entorno PUG para crear sus propios datos, especificando con precisión factores como la iluminación y el punto de vista que son difíciles de controlar con conjuntos de datos del mundo real. La capacidad de generar datos que abarquen una variedad de dominios permite una evaluación y entrenamiento más confiable de modelos de visión y lenguaje en comparación con los puntos de referencia existentes, escribe el equipo.

Video: Meta

En los experimentos, los investigadores demostraron la capacidad de PUG para evaluar la robustez de los modelos y la calidad de la representación: PUG mostró que los principales modelos de ImageNet no siempre eran los más robustos en relación con factores como la pose y la iluminación. También permitió el estudio de cómo diferentes modelos de visión y lenguaje capturan las relaciones entre las imágenes y el texto.

Más información y datos están disponibles en el sitio web del proyecto PUG.