Pesquisadores da Meta desenvolveram novos conjuntos de dados sintéticos fotorealistas usando a Unreal Engine, que permitem uma avaliação e treinamento mais controlados e robustos de sistemas de visão de IA.
Os pesquisadores da Meta introduziram uma família de conjuntos de dados de imagens sintéticas chamada PUG (Photorealistic Unreal Graphics) que visam fornecer novas capacidades para a avaliação e treinamento de sistemas de visão de IA. Eles utilizam a Unreal Engine, uma avançada engine gráfica 3D em tempo real, para renderizar dados de imagens fotorealistas.
Enquanto conjuntos de dados sintéticos já foram criados anteriormente, os pesquisadores afirmam que muitas vezes faltava realismo, limitando sua utilidade. Ao aproveitar o fotorealismo da Unreal Engine, os conjuntos de dados PUG visam reduzir a lacuna entre dados sintéticos e do mundo real.
Os pesquisadores apresentam quatro conjuntos de dados PUG:
- PUG: Animals contém mais de 200.000 imagens de animais em várias poses, tamanhos e ambientes diferentes. Pode ser usado para estudar a robustez fora da distribuição e as representações do modelo.
- PUG: ImageNet possui mais de 90.000 imagens como um conjunto adicional de teste de robustez para o ImageNet, contendo um conjunto abrangente de mudanças de fatores, como pose, plano de fundo, tamanho, textura e iluminação.
- PUG: SPAR com mais de 40.000 imagens é usado para avaliar modelos de visão de linguagem em compreensão de cena, posição, atributo e relação.
- PUG: AR4T fornece aproximadamente 250.000 imagens para ajuste fino de modelos de visão e linguagem para relações espaciais e atributos.
PUG já demonstrou uma robustez fraca em modelos líderes do ImageNet
Além dos conjuntos de dados, os pesquisadores podem utilizar o ambiente PUG para criar seus próprios dados, especificando precisamente fatores como iluminação e ponto de vista que são difíceis de controlar com conjuntos de dados do mundo real. A capacidade de gerar dados que abrangem uma variedade de domínios possibilita uma avaliação e treinamento mais confiáveis de modelos de visão e linguagem em comparação com os benchmarks existentes, escreve a equipe.
Nos experimentos, os pesquisadores demonstraram a capacidade do PUG em avaliar a robustez dos modelos e a qualidade da representação: o PUG mostrou que os principais modelos do ImageNet nem sempre eram os mais robustos em relação a fatores como pose e iluminação. Ele também possibilitou o estudo de como diferentes modelos de visão e linguagem capturam as relações entre imagens e texto.
Mais informações e dados estão disponíveis no site do projeto PUG.