Meta apresenta o V-JEPA 2, um modelo inovador com 1,2 bilhão de parâmetros
Meta apresentou o V-JEPA 2, um modelo de vídeo com 1,2 bilhão de parâmetros, desenvolvido para conectar uma compreensão física intuitiva ao controle robótico. O sistema alcança resultados de ponta em benchmarks de reconhecimento de movimento e previsão de ações.
Os humanos desenvolvem a compreensão do mundo físico desde muito jovens – muito antes de aprenderem a falar. Quando jogamos uma bola de tênis para o alto, sabemos instintivamente que ela retornará ao chão. O V-JEPA 2, da Meta, busca incorporar esse mesmo tipo de física intuitiva na inteligência artificial.
Esse novo modelo é construído com base na Arquitetura de Predição de Embeddings Conjuntos (JEPA), considerada pelo cientista-chefe da Meta, Yann LeCun, como um passo crucial rumo a uma IA mais avançada. Diferentemente de outros “modelos do mundo”, como o gerador de vídeos Sora da OpenAI ou os grandes modelos de linguagem, o V-JEPA 2, assim como seu predecessor, utiliza uma abordagem fundamentalmente diferente.
De acordo com o relatório técnico da empresa, os modelos do mundo visam permitir que os agentes de IA planejem e raciocinem no mundo físico. LeCun destaca uma nítida diferença entre sua abordagem JEPA e os modelos generativos: enquanto Sora e os modelos de linguagem tentam prever cada detalhe, seja até o nível do pixel ou da palavra, o JEPA foca apenas naquilo que é essencial – somente nas partes previsíveis de uma cena. Inclusive, LeCun já afirmou que modelos generativos como o Sora representam um beco sem saída no caminho para a inteligência artificial.
Aprendizado por observação, não por geração de pixels
O diferencial do V-JEPA 2 está em sua arquitetura. Ao invés de operar a nível de pixel, o modelo trabalha em um espaço de representação aprendido. Ele não tenta prever cada detalhe, como a posição de cada folha em uma árvore ou a forma exata de cada sombra; em vez disso, aprende conceitos abstratos, como “a bola irá cair” ou “o objeto se move para a esquerda”.
Essa abstração torna o sistema mais eficiente e robusto. Enquanto modelos generativos despenderiam capacidade computacional na criação de detalhes visuais irrelevantes, o V-JEPA 2 concentra-se somente nas informações necessárias para o planejamento e o controle. Essa eficiência fica evidente na prática: o V-JEPA 2 precisa de apenas 16 segundos para planejar uma ação robótica, enquanto o modelo generativo Cosmos, da Nvidia, leva quatro minutos.
Treinamento em duas fases com dados robóticos mínimos
O treinamento do V-JEPA 2 ocorre em duas etapas distintas. Na primeira fase, o modelo aprende sozinho a partir de mais de um milhão de horas de vídeo e um milhão de imagens – sem supervisão humana. Esse conjunto de dados foi cuidadosamente selecionado e inclui múltiplas perspectivas, como vídeos em primeira pessoa, cenas de ação capturadas em terceira pessoa, gravações de tutoriais e conteúdo filtrado do YouTube.
Técnicamente, o sistema utiliza um codificador robusto com um bilhão de parâmetros para converter vídeos em representações abstratas. Um aspecto único deste treinamento é que partes dos vídeos são mascaradas, e um “previsor” precisa inferir o que acontece nesses intervalos – não em termos de pixels, mas de conceitos abstratos. Essa metodologia ensina o sistema a focar apenas nos elementos mais importantes e previsíveis de uma cena.
Na segunda fase, é introduzido o controle robótico. De forma surpreendente, essa etapa requer apenas 62 horas de dados de robôs provenientes de um conjunto de dados público. Um previsor dedicado aprende como as ações robóticas alteram o ambiente, com base nas representações previamente adquiridas. Em contraste, outros sistemas de IA para robótica frequentemente necessitam de milhares de horas de treinamento específico, precisando ser requalificados para cada novo ambiente.
Resultados expressivos em múltiplas tarefas
O V-JEPA 2 apresenta resultados expressivos em diversos benchmarks padrão. No conjunto de dados Something-Something v2 – que testa o reconhecimento de movimentos complexos e interações, como “mover algo da esquerda para a direita” ou “virar um recipiente e esvaziá-lo” – o modelo atinge 77,3% de acurácia, superando outros modelos de vídeo de ponta.
A previsão de ações é ainda mais notável. No teste Epic-Kitchens-100, que monitora atividades cotidianas em cozinha, o V-JEPA 2 consegue prever a próxima ação (como “cortar uma cebola” ou “colocar uma panela no fogão”) com 39,7% de acurácia um segundo antes que ela ocorra – um avanço de 44% em relação a sistemas anteriores. Quando associado a um modelo de linguagem, o sistema também responde a perguntas complexas sobre o conteúdo dos vídeos, alcançando desempenho superior em múltiplos testes comparativos.
Da compreensão de vídeo ao controle robótico
A Meta testou o V-JEPA 2 em robôs reais, utilizando apenas o conjunto de dados público DROID – uma coleção de vídeos que demonstram diversos movimentos robóticos. Sem treinamentos adicionais, o modelo foi capaz de controlar dois braços robóticos Franka distintos em ambientes laboratoriais inéditos. Em tarefas como agarrar um copo ou manipular objetos, o sistema obteve taxas de sucesso entre 65% e 80%.
No funcionamento, o robô recebe uma imagem representando o estado final desejado – por exemplo, um copo colocado em um ponto específico. A partir daí, o V-JEPA 2 planeja um caminho passo a passo para atingir esse objetivo, simulando diversos movimentos possíveis com base em seu modelo interno de física, e escolhe a opção mais promissora. Após cada movimento, o robô verifica sua posição atual e replaneja os próximos passos.
Novos benchmarks revelam a lacuna em relação à física intuitiva humana
Juntamente com o V-JEPA 2, a Meta está lançando três novos benchmarks para testar sistematicamente o quanto as atuais IA realmente compreendem a realidade física. O primeiro, IntPhys 2, é inspirado em experimentos da psicologia do desenvolvimento: apresenta pares de vídeos, sendo que um deles viola leis físicas – como uma bola que sobe ao invés de cair. Enquanto os humanos detectam imediatamente essas impossibilidades, até os modelos mais avançados de IA, incluindo o V-JEPA 2, apresentam desempenho pouco acima do acaso.
O segundo benchmark, MVPBench (Minimal Video Pairs), vai ainda mais longe. Ele utiliza pares de vídeos cuidadosamente elaborados que parecem praticamente idênticos, mas que exigem respostas opostas para a mesma pergunta. Essa abordagem impede que os modelos se baseiem apenas em pistas visuais ou linguísticas superficiais. Neste cenário, o V-JEPA 2 alcança uma acurácia de 44,5% em pares – a melhor entre todos os sistemas testados –, superando o líder anterior, mas ainda distante do desempenho humano.
O terceiro benchmark, CausalVQA, avalia o raciocínio causal em cenários físicos. Os modelos não devem apenas descrever o que ocorre em um vídeo, mas também responder perguntas contrafactuais (“O que teria acontecido se…”), prever eventos futuros e sugerir ações. O padrão é claro: as IAs atuais são boas em descrever o que veem, mas ainda têm dificuldade em imaginar desfechos alternativos ou prever o que acontecerá a seguir.
Rumo a modelos hierárquicos
Apesar de suas conquistas, o V-JEPA 2 ainda enfrenta desafios, especialmente no que diz respeito ao planejamento de longo prazo – o modelo consegue prever apenas os próximos segundos, mas não é capaz de executar tarefas complexas envolvendo múltiplas etapas. Além disso, o sistema é sensível à posição da câmera, o que pode gerar problemas em aplicações no mundo real.
A visão da Meta para o futuro envolve o desenvolvimento de modelos hierárquicos, capazes de planejar em múltiplas escalas de tempo – de frações de segundo até minutos ou horas. A integração de outros sentidos, como som ou tato, também faz parte dessa rota de evolução.
Enquanto a equipe de LeCun adota uma abordagem diferenciada com o método JEPA, a Meta continua investindo na pesquisa em IA generativa como caminho para a superinteligência.