Los modelos de IA para conducción autónoma necesitan aprender numerosas situaciones de tráfico a partir de videos, tanto dentro como fuera de las reglas de tránsito. Sin embargo, el material de entrenamiento es un cuello de botella.

Los datos sintéticos pueden ayudar a aliviar este cuello de botella para todos los fabricantes, incluso aquellos que aún no tienen grandes flotas en tráfico real. Esta es precisamente la tarea para la cual el modelo de IA generativa GAIA-1 de Wayve, una empresa británica fundada en 2017 especializada en técnicas de aprendizaje profundo para modelos de conducción autónoma, fue diseñado. GAIA significa «Generative Artificial Intelligence for Autonomy» (Inteligencia Artificial Generativa para Autonomía).

Un «modelo de mundo» multimodal para el tráfico en carreteras

El GAIA-1 fue entrenado en un corpus multimodal de datos de conducción, que incluye video, texto e información del vehículo. Similar a cómo los modelos de lenguaje aprenden a predecir los próximos caracteres probables en una secuencia, el GAIA-1 aprendió a predecir los siguientes cuadros en una secuencia de video.

Sin embargo, según Wayve, el GAIA-1 no es un «modelo generativo de video estándar». En cambio, es un «verdadero modelo de mundo» que «aprende a entender y descifrar los conceptos importantes de la conducción», como diferentes vehículos y sus características, carreteras, edificios o semáforos.

La verdadera maravilla del GAIA-1 reside en su capacidad para manifestar las reglas generativas que sustentan el mundo en el que habitamos. A través de un extenso entrenamiento con una variedad diversa de datos de conducción, nuestro modelo sintetiza la estructura inherente y los patrones del mundo real, lo que le permite generar escenas de conducción notablemente realistas y diversas.

Wayve

Como evidencia para esta sólida tesis, Wayve cita la capacidad del GAIA-1 para generar «futuros plausibles prolongados» a partir de unos pocos segundos de video de entrada. Cuanto más en el futuro miraba la IA, menos relevante se volvía la entrada corta. Las escenas generadas posteriormente no contenían ningún contenido del material de origen.

«Esto demuestra que el GAIA-1 comprende las reglas que sustentan el mundo en el que habitamos», escribe Wayve. El comportamiento simulado de conducción es realista, al igual que el entorno de coches estacionados y en movimiento.


El modelo fue diseñado para ofrecer varias configuraciones tanto para el vehículo en movimiento como para el entorno. Por ejemplo, puede simular situaciones de conducción que no están incluidas en los datos de entrenamiento. Esto sería útil, por ejemplo, para simular situaciones de conducción peligrosas que podrían utilizarse para evaluar modelos de IA para la conducción autónoma. El GAIA-1 se basa en investigaciones sobre el Aprendizaje por Imitación Basado en Modelo para la Conducción Urbana.

Texto para Tráfico

El GAIA-1 puede ser instruido en lenguaje natural para crear escenas específicas, como navegar entre varios autobuses en el siguiente video.

Incluso si una escena ya está en curso, puedes modificarla insertando texto. En el siguiente video, la frase «Es de noche y encendemos los faros» genera una conducción nocturna.

Wayve describe su modelo como «una forma única de entrenar de manera más efectiva los sistemas autónomos para navegar de manera más eficiente en escenarios complejos del mundo real» y tiene planes de utilizarlo para desarrollar aún más sus propios modelos de IA para la conducción autónoma. Wayve planea divulgar más información sobre el GAIA-1 en los próximos meses.