O modelo mais recente da Meta destaca o desafio da IA no planejamento de longo prazo e no raciocínio causal
A Meta apresentou o V-JEPA 2, um modelo de vídeo com 1,2 bilhão de parâmetros projetado para conectar a compreensão física intuitiva ao controle de robôs. O sistema atinge resultados de ponta em benchmarks de reconhecimento de movimento e previsão de ações.
Os seres humanos desenvolvem uma compreensão do mundo físico desde cedo — muito antes de aprenderem a falar. Ao lançar uma bola de tênis ao ar, sabemos instintivamente que ela retornará ao chão. O V-JEPA 2 da Meta busca incorporar esse tipo de física intuitiva na inteligência artificial.
O novo modelo baseia-se na Arquitetura de Embedding Preditivo Conjunto (JEPA), considerada pelo principal cientista da Meta, Yann LeCun, como um passo crucial rumo a uma inteligência de máquina mais avançada. Diferente de outros “modelos mundo”, como o gerador de vídeo Sora da OpenAI ou os grandes modelos de linguagem, o V-JEPA 2 — assim como seu predecessor — adota uma abordagem fundamentalmente distinta.
Modelos mundo têm o objetivo de permitir que agentes de IA planejem e raciocinem no mundo físico. LeCun faz uma distinção clara entre sua abordagem JEPA e os modelos generativos: enquanto Sora e os modelos de linguagem tentam prever cada detalhe minucioso, o JEPA concentra-se no essencial — apenas nas partes previsíveis de uma cena. Segundo LeCun, modelos generativos como o Sora seriam um “beco sem saída” no caminho para a inteligência de máquina.
Aprendizado por observação, não pela geração de pixels
A arquitetura é o elemento que diferencia o V-JEPA 2. Em vez de operar no nível dos pixels, o modelo atua em um espaço de representação aprendido. Ele não tenta prever a posição de cada folha de uma árvore ou a forma exata de cada sombra; seu foco são conceitos abstratos, como “a bola vai cair” ou “o objeto se desloca para a esquerda”.
Essa abstração torna o sistema tanto mais eficiente quanto mais robusto. Enquanto modelos generativos gastam poder computacional gerar detalhes visuais irrelevantes, o V-JEPA 2 concentra-se unicamente nas informações necessárias para o planejamento e controle. Essa eficiência é evidenciada na prática: o modelo precisa de apenas 16 segundos para planejar uma ação robótica, em contraste com os quatro minutos do modelo generativo Cosmos da Nvidia.
Treinamento em duas etapas com dados mínimos de robô
O treinamento do V-JEPA 2 ocorre em duas fases distintas. Na primeira, o modelo aprende a partir de mais de um milhão de horas de vídeo e de um milhão de imagens — sem supervisão humana. O conjunto de dados é cuidadosamente curado, apresentando múltiplos pontos de vista, como vídeos em primeira pessoa, tomadas de ação em terceira pessoa, gravações de tutoriais e conteúdo filtrado do YouTube.
Tecnicamente, o sistema utiliza um codificador robusto com um bilhão de parâmetros para transformar vídeos em representações abstratas. Um aspecto inovador do treinamento é que partes do vídeo são mascaradas, exigindo que um “previsor” deduza o que ocorre nesses intervalos — não em termos de pixels, mas como conceitos abstratos. Esse método ensina o sistema a se concentrar apenas nos elementos mais importantes e previsíveis de uma cena.
Na segunda fase, o controle robótico é introduzido. Notavelmente, esse processo requer apenas 62 horas de dados de robôs provenientes de um conjunto de dados público. Um previsor dedicado aprende como as ações do robô alteram o ambiente, com base nas representações previamente adquiridas. Em comparação, outros sistemas de IA em robótica costumam exigir milhares de horas de dados específicos e precisam ser re-treinados para cada novo ambiente.
Resultados expressivos em diversas tarefas
O V-JEPA 2 demonstra desempenho expressivo em vários benchmarks padrão. No conjunto de dados Something-Something v2, que avalia o reconhecimento de movimentos e interações complexas — como “mover algo da esquerda para a direita” ou “virar um recipiente e esvaziá-lo” — o modelo alcança 77,3% de precisão, superando outros modelos de vídeo líderes.
A previsão de ações é especialmente notável. No teste Epic-Kitchens-100, que monitora atividades cotidianas em cozinhas, o V-JEPA 2 é capaz de prever a próxima ação (como “cortar uma cebola” ou “colocar uma panela no fogão”) com um segundo de antecedência, atingindo 39,7% de precisão — uma melhoria de 44% em relação aos sistemas anteriores. Quando associado a um modelo de linguagem, ele ainda responde a questões complexas sobre o conteúdo do vídeo, obtendo pontuações elevadas em diversos testes comparativos.
Da compreensão de vídeo ao controle de robôs
A Meta testou o V-JEPA 2 em robôs reais, utilizando exclusivamente o conjunto de dados público DROID — uma coleção de vídeos que demonstram diversos movimentos robóticos. Sem treinamento adicional, o modelo foi capaz de controlar dois braços robóticos Franka diferentes em ambientes de laboratório inéditos. Em tarefas como pegar uma xícara ou manipular objetos, o sistema atingiu taxas de sucesso entre 65% e 80%.
O funcionamento é simples: o robô recebe a imagem do estado desejado — por exemplo, uma xícara posicionada em um local específico. O V-JEPA 2, então, planeja um caminho passo a passo para alcançar esse objetivo, simulando vários movimentos possíveis em seu modelo de física aprendido e escolhendo a opção mais promissora. Após cada movimento, ele verifica sua posição atual e replana os passos subsequentes.
Novos benchmarks revelam o abismo para uma física intuitiva humana
Juntamente com o V-JEPA 2, a Meta está lançando três novos benchmarks para testar sistematicamente o quanto os sistemas de IA compreendem a realidade física. O primeiro, IntPhys 2, é inspirado em experimentos de psicologia do desenvolvimento: exibe pares de vídeos em que um deles viola as leis físicas — como uma bola que sobe em vez de cair. Enquanto os seres humanos identificam tais impossibilidades instantaneamente, mesmo os modelos de IA mais avançados, incluindo o V-JEPA 2, apresentam desempenho pouco acima do acaso.
O segundo benchmark, MVPBench (Minimal Video Pairs), adota uma abordagem ainda mais desafiadora. Utilizando pares de vídeos cuidadosamente elaborados — que parecem quase idênticos, mas exigem respostas opostas para a mesma pergunta —, o método impede que os modelos se baseiem em pistas visuais ou linguísticas superficiais. Nesse cenário, o V-JEPA 2 apresenta uma “precisão em pares” de 44,5%, superando o desempenho do anterior líder, embora ainda longe do nível humano.
O terceiro benchmark, CausalVQA, avalia o raciocínio causal em cenários físicos. Nele, os modelos não apenas descrevem o que está acontecendo em um vídeo, mas também respondem a perguntas contrafactuais (“O que teria acontecido se…”), preveem eventos futuros e sugerem ações. O padrão é claro: os sistemas atuais de IA são bons em descrever o que veem, mas enfrentam dificuldades em imaginar desfechos alternativos ou prever eventos subsequentes.
Rumo a modelos hierárquicos
Apesar de seus pontos fortes, o V-JEPA 2 ainda enfrenta desafios. O modelo demonstra limitações no planejamento de longo prazo — ele consegue prever apenas os próximos segundos, mas não executar tarefas complexas e em múltiplas etapas. Além disso, sua sensibilidade à posição da câmera pode gerar complicações em aplicações reais.
A visão futura da Meta inclui o desenvolvimento de modelos hierárquicos capazes de planejar em múltiplas escalas de tempo — desde frações de segundo até minutos ou horas. A integração de outros sentidos, como som e tato, também está nos planos. Assim, enquanto a equipe de LeCun trilha um caminho distinto em relação a outros gigantes da tecnologia com a abordagem JEPA, a Meta continua investindo na IA generativa como uma rota para a superinteligência.