Meta presenta V-JEPA 2
Meta amplía su investigación en “world models” con V-JEPA 2, una IA diseñada para que los agentes comprendan y predigan el funcionamiento físico del entorno.
Meta presentó el miércoles su modelo V-JEPA 2, una evolución de la arquitectura V-JEPA lanzada en 2024. Este sistema, descrito como un “modelo del mundo”, busca dotar a los agentes de IA de una comprensión más profunda de la realidad física, permitiéndoles anticipar acciones y resultados sin depender de instrucciones explícitas.
La compañía sostiene que V-JEPA 2 representa un paso clave hacia la creación de agentes autónomos capaces de operar en entornos reales, un desafío central para la robótica y la inteligencia artificial aplicada.
Introducing V-JEPA 2, a new world model with state-of-the-art performance in visual understanding and prediction.
— AI at Meta (@AIatMeta) June 11, 2025
V-JEPA 2 can enable zero-shot planning in robots—allowing them to plan and execute tasks in unfamiliar environments.
Download V-JEPA 2 and read our research paper… pic.twitter.com/Zdibfs8ZMQ
El nuevo modelo se basa en más de un millón de horas de video utilizadas para el entrenamiento de su predecesor. Estas secuencias visuales permiten al sistema aprender cómo los objetos interactúan según leyes naturales como la gravedad, la fricción o el movimiento, sin que se le indiquen manualmente reglas o etiquetas.
Meta ilustró su funcionamiento con ejemplos simples: un robot que sostiene un plato y una espátula puede inferir que el siguiente paso lógico, al acercarse a una sartén con huevos cocidos, es usar la espátula para transferir la comida al plato.
Este tipo de razonamiento —anticipar qué ocurrirá a continuación en función del contexto visual— es lo que diferencia a los “world models” de los enfoques tradicionales de visión por computadora.
Según la compañía, V-JEPA 2 es 30 veces más rápido que Cosmos, el modelo de Nvidia que también busca mejorar la comprensión espacial y física en agentes inteligentes. Sin embargo, Meta reconoce que las comparaciones se basan en métricas internas y que las metodologías de evaluación pueden variar entre laboratorios.
En palabras de Yann LeCun, científico jefe de IA en Meta, “los modelos del mundo abrirán una nueva era para la robótica, permitiendo que los agentes actúen con sentido común y aprendan del entorno sin depender de cantidades astronómicas de datos de entrenamiento”.
El desarrollo de modelos como V-JEPA 2 apunta a resolver una limitación central en la IA moderna: la falta de razonamiento causal y físico. Mientras los LLMs (Large Language Models) dominan el procesamiento del lenguaje, aún carecen de la capacidad para interactuar con el mundo físico. Los “world models” buscan llenar ese vacío al enseñar a las máquinas cómo funcionan los objetos y las fuerzas que los rigen.
De lograrse este objetivo, se abriría el camino para robots domésticos, asistentes industriales y sistemas autónomos que puedan actuar con un grado de independencia mayor, comprendiendo qué consecuencias tendrá cada acción sin requerir entrenamiento supervisado extensivo.
Este enfoque también puede reducir los costos de entrenamiento, ya que el modelo aprende de video no etiquetado, una fuente abundante y económica frente a los datasets tradicionales.
No obstante, el reto técnico sigue siendo significativo. Traducir las predicciones visuales en acciones motrices eficientes requiere combinar la comprensión del entorno con la capacidad de ejecutar tareas físicas en tiempo real, un terreno donde la IA todavía enfrenta limitaciones.
Perspectiva
V-JEPA 2 refuerza la visión de Meta de que la próxima frontera de la IA no está solo en procesar texto o imágenes, sino en comprender el mundo como lo haría un ser vivo. Este tipo de investigación representa un paso hacia sistemas que integran percepción, predicción y acción —una tríada esencial para la inteligencia artificial aplicada al entorno físico.
El avance de los “world models” redefine el papel de la IA: no como herramienta aislada, sino como colaboradora capaz de percibir y anticipar. En ese cruce entre datos y experiencia sensorial, la innovación encuentra su forma más tangible.