Meta presenta V-JEPA 2

Meta amplía su investigación en “world models” con V-JEPA 2, una IA diseñada para que los agentes comprendan y predigan el funcionamiento físico del entorno.

Meta presenta V-JEPA 2

El modelo de 1.2B de parámetros habilita planificación zero-shot en robots y supera el estado del arte en anticipación de acciones humanas.

FAIR (Fundamental AI Research) de Meta ha liberado V-JEPA 2, un world model entrenado mediante aprendizaje autosupervisado sobre video. A diferencia de las arquitecturas generativas que reconstruyen píxeles, V-JEPA 2 opera prediciendo representaciones en un espacio latente (embedding space), lo que le permite inferir la dinámica física y planificar acciones robóticas complejas sin necesidad de grandes volúmenes de datos etiquetados de interacción.

El modelo ha sido entrenado inicialmente con más de 1 millón de horas de video de internet y posteriormente alineado con un conjunto reducido de datos de interacción robótica (aprox. 62 horas) para tareas de manipulación. Junto al modelo, Meta ha publicado tres nuevos benchmarks: IntPhys 2, MVPBench y CausalVQA, orientados a evaluar el razonamiento físico en sistemas de IA.

Arquitectura y Especificaciones Técnicas

V-JEPA 2 se basa en una arquitectura de transformer (ViT) que utiliza un objetivo de mask denoising en el espacio de representación. El sistema consta de un codificador de video y un predictor. Durante el pre-entrenamiento, el modelo aprende a predecir los embeddings de partes enmascaradas de un video basándose en las partes visibles, sin generar píxeles.

Posteriormente, se entrena una variante condicionada por acciones (V-JEPA 2-AC) donde el predictor aprende a estimar el siguiente estado latente basándose en el estado actual y una acción propuesta. Esto permite utilizar el modelo dentro de un bucle de control predictivo (MPC) para planificación robótica.

Especificaciones del modelo

CaracterísticaDetalle
ArquitecturaVision Transformer (ViT-L, ViT-H, ViT-g)
ParámetrosHasta 1.2 Billones (ViT-g)
Pre-entrenamiento1M+ horas de video (VideoMix22M: YouTube, Kinetics, etc.)
ResoluciónEntrenamiento progresivo hasta 384x384 px, clips de 64 frames
LicenciaMIT (Código y Pesos)
RepositorioGitHub y Hugging Face

El modelo destaca por su eficiencia en tareas de planificación. Según el reporte técnico, V-JEPA 2 es capaz de realizar planificación visual mediante el método de entropía cruzada significativamente más rápido que modelos basados en difusión de video como Cosmos, dado que opera exclusivamente en el espacio latente.

En tareas de evaluación, el modelo reporta resultados de estado del arte (SOTA):

  • Something-Something v2 (Motion Understanding): 77.3% top-1 accuracy.
  • Epic-Kitchens-100 (Action Anticipation): 39.7 recall-at-5 (Mejora relativa del 44% sobre el estado del arte previo).
  • PerceptionTest (VideoQA alineado con LLM): 84.0% accuracy.

Enfoque autosupervisado y predicción latente

El documento técnico detalla la hipótesis central de la arquitectura JEPA: aprender un modelo interno del mundo mediante observación pasiva, similar al aprendizaje cognitivo humano, evitando el costo computacional de la generación de video a nivel de píxel.

"En contraste con los enfoques que se centran en aprender enteramente a partir de datos de interacción, el aprendizaje autosupervisado nos permite hacer uso de video a escala de internet —que representa secuencias de estados sin observaciones directas de las acciones— para aprender tanto a representar observaciones de video como a aprender un modelo predictivo para la dinámica del mundo en este espacio de representación aprendido."

"Además, a diferencia de los enfoques basados en la generación de video, el enfoque JEPA se centra en aprender representaciones para aspectos predecibles de una escena (por ejemplo, la trayectoria de un objeto en movimiento) mientras ignora detalles impredecibles que los objetivos generativos enfatizan, ya que hacen predicciones a nivel de píxel (por ejemplo, la ubicación precisa de cada brizna de hierba en un campo, o cada hoja en un árbol)."

Fuente: V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning, Sección 1 (Introduction).
"Entrenamos V-JEPA 2-AC, un modelo autorregresivo que predice representaciones de observaciones de video futuras condicionadas por acciones de control y observaciones propioceptivas. [...] El modelo se entrena utilizando aproximadamente 62 horas de video no etiquetado del conjunto de datos Droid sin procesar, que consiste en videos cortos, típicamente de 3 a 4 segundos de duración, de un brazo Franka Emika Panda de 7-DoF equipado con una pinza de dos dedos."

Fuente: V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning, Sección 3.1 (Action-Conditioned World Model Training).

Planificación Robótica Zero-Shot

Una de las capacidades más relevantes reportadas es el despliegue zero-shot en brazos robóticos Franka Emika. Utilizando V-JEPA 2-AC como modelo del mundo, el sistema puede planificar tareas de Pick-and-Place (agarrar y colocar) en entornos no vistos durante el entrenamiento.

El sistema recibe una imagen objetivo (o sub-objetivos visuales) y utiliza el predictor para simular secuencias de acciones en el espacio latente, seleccionando aquella que minimiza la distancia entre la predicción y el embedding del objetivo. Esto elimina la necesidad de re-entrenamiento específico (fine-tuning) para cada nuevo entorno físico, una limitación común en políticas de aprendizaje por refuerzo tradicionales.

Este enfoque se alinea con la importancia de contar con representaciones vectoriales robustas para capturar la semántica del entorno, un concepto fundamental en arquitecturas modernas, tal como se analiza en nuestro artículo sobre Vector Embeddings y Espacios Latentes.

Estado actual de los World Models

El lanzamiento de V-JEPA 2 refuerza la divergencia técnica entre los modelos de mundo generativos (como Sora de OpenAI o Gen-3 de Runway) y los modelos de mundo predictivos latentes defendidos por Yann LeCun. Mientras los primeros priorizan la fidelidad visual ("simuladores de video"), V-JEPA prioriza la consistencia semántica y física para la toma de decisiones.

Meta libera este modelo bajo licencia MIT, permitiendo su integración tanto en investigación académica como en aplicaciones comerciales, facilitando el acceso a arquitecturas de transformer architecture optimizadas para video.

Fuentes y Enlaces