Modelos de IA para direção autônoma precisam aprender inúmeras situações de tráfego a partir de vídeos, tanto dentro quanto fora das regras de trânsito. No entanto, o material de treinamento é um gargalo.

Dados sintéticos podem ajudar a aliviar esse gargalo para todos os fabricantes, inclusive aqueles que ainda não possuem grandes frotas em tráfego real. Essa é exatamente a tarefa para a qual o modelo de IA generativa GAIA-1 da Wayve, uma empresa britânica fundada em 2017 especializada em técnicas de aprendizado profundo para modelos de direção autônoma, foi projetado. GAIA significa “Generative Artificial Intelligence for Autonomy” (Inteligência Artificial Generativa para Autonomia).

Um “modelo de mundo” multimodal para o tráfego rodoviário

O GAIA-1 foi treinado em um corpus multimodal de dados de direção, incluindo vídeo, texto e informações do veículo. Semelhante à forma como os modelos de linguagem aprendem a prever os próximos caracteres prováveis em uma sequência, o GAIA-1 aprendeu a prever os próximos quadros em uma sequência de vídeo.

No entanto, segundo a Wayve, o GAIA-1 não é um “modelo de vídeo generativo padrão”. Em vez disso, é um “verdadeiro modelo de mundo” que “aprende a entender e desvendar os conceitos importantes da direção”, como diferentes veículos e suas características, estradas, edifícios ou semáforos.

A verdadeira maravilha do GAIA-1 reside em sua capacidade de manifestar as regras generativas que sustentam o mundo em que habitamos. Por meio de um treinamento extenso em uma variedade diversa de dados de direção, nosso modelo sintetiza a estrutura inerente e os padrões do mundo real, permitindo que ele gere cenas de direção notavelmente realistas e diversas.

Wayve

Como evidência para essa tese sólida, a Wayve cita a capacidade do GAIA-1 de gerar “futuros plausíveis prolongados” a partir de alguns segundos de vídeo de entrada. Quanto mais no futuro a IA olhava, menos importante se tornava a entrada curta. As cenas geradas posteriormente não continham nenhum conteúdo do material de origem.

“Isto mostra que o GAIA-1 compreende as regras que sustentam o mundo em que habitamos”, escreve a Wayve. O comportamento simulado de direção é realista, assim como o ambiente de carros estacionados e em movimento.

O modelo foi projetado para oferecer várias configurações tanto para o veículo em movimento quanto para o ambiente. Por exemplo, ele pode simular situações de direção que não estão incluídas nos dados de treinamento. Isso seria útil, por exemplo, para simular situações perigosas de direção que poderiam ser usadas para avaliar modelos de IA para direção autônoma. O GAIA-1 baseia-se em pesquisas sobre Aprendizado por Imitação Baseado em Modelo para Direção Urbana.

Texto para Tráfego

O GAIA-1 pode ser instruído em linguagem natural para criar cenas específicas, como navegar entre vários ônibus no vídeo abaixo.

Mesmo se uma cena já estiver em execução, você pode modificá-la inserindo texto. No vídeo a seguir, a frase “É noite e ligamos os faróis” leva a uma condução noturna gerada.

A Wayve descreve seu modelo como “uma maneira única de treinar melhor os sistemas autônomos para navegar de forma mais eficiente em cenários complexos do mundo real” e planeja usá-lo para desenvolver ainda mais seus próprios modelos de IA para direção autônoma. A Wayve planeja divulgar mais informações sobre a GAIA-1 nos próximos meses.