Les modèles d’IA pour la conduite autonome doivent apprendre de nombreuses situations de trafic à partir de vidéos, tant conformes que non conformes au code de la route. Cependant, les données d’entraînement sont un goulot d’étranglement.
Les données synthétiques peuvent aider à soulager ce goulot d’étranglement pour tous les fabricants, y compris ceux qui n’ont pas encore de grandes flottes en conditions réelles de trafic. C’est précisément la tâche pour laquelle le modèle d’IA générative GAIA-1 de Wayve, une entreprise britannique fondée en 2017 spécialisée dans les techniques d’apprentissage profond pour les modèles de conduite autonome, a été conçu. GAIA signifie « Generative Artificial Intelligence for Autonomy » (Intelligence Artificielle Générative pour l’Autonomie).
Un « modèle de monde » multimodal pour la circulation routière
GAIA-1 a été entraîné sur un corpus multimodal de données de conduite, comprenant des vidéos, du texte et des informations sur le véhicule. De manière similaire aux modèles de langage qui apprennent à prédire les prochains caractères probables dans une séquence, GAIA-1 a appris à prédire les prochains cadres dans une séquence vidéo.
Cependant, selon Wayve, GAIA-1 n’est pas un « modèle génératif vidéo standard ». Au lieu de cela, il s’agit d’un « véritable modèle de monde » qui « apprend à comprendre et à décoder les concepts importants de la conduite », tels que les différents véhicules et leurs caractéristiques, les routes, les bâtiments ou les feux de signalisation.
La véritable merveille de GAIA-1 réside dans sa capacité à manifester les règles génératives qui sous-tendent le monde dans lequel nous vivons. Grâce à un entraînement intensif sur une variété de données de conduite diverses, notre modèle synthétise la structure inhérente et les schémas du monde réel, lui permettant de générer des scènes de conduite remarquablement réalistes et variées. Wayve
En guise de preuve solide de cette thèse, Wayve cite la capacité de GAIA-1 à générer des « futurs plausibles étendus » à partir de quelques secondes de vidéo d’entrée. Plus loin dans le futur l’IA regardait, moins l’entrée courte était importante. Les scènes générées ultérieurement ne contenaient aucun contenu de la source initiale.
« Cela démontre que GAIA-1 comprend les règles qui soutiennent le monde dans lequel nous vivons », écrit Wayve. Le comportement simulé de conduite est réaliste, tout comme l’environnement avec des voitures stationnées et en mouvement.
Le modèle a été conçu pour offrir plusieurs configurations tant pour le véhicule en mouvement que pour l’environnement. Par exemple, il peut simuler des situations de conduite qui ne sont pas incluses dans les données d’entraînement. Cela serait utile, par exemple, pour simuler des situations de conduite dangereuses qui pourraient être utilisées pour évaluer les modèles d’IA pour la conduite autonome. GAIA-1 s’appuie sur des recherches en matière d’apprentissage par imitation basé sur un modèle pour la conduite urbaine.
Texte pour le trafic
GAIA-1 peut être instruit en langage naturel pour créer des scènes spécifiques, comme naviguer entre plusieurs bus dans la vidéo ci-dessous.
Même si une scène est déjà en cours, vous pouvez la modifier en y insérant du texte. Dans la vidéo suivante, la phrase « C’est la nuit et nous allumons les phares » entraîne la génération d’une conduite nocturne.
A Wayve décrit son modèle comme « une manière unique d’entraîner plus efficacement les systèmes autonomes à naviguer dans des scénarios complexes du monde réel » et prévoit de l’utiliser pour développer davantage ses propres modèles d’IA pour la conduite autonome. Wayve prévoit de divulguer davantage d’informations sur GAIA-1 dans les mois à venir.