Meta presenta Llama 4: arquitectura MoE, contexto de 10M tokens y multimodalidad nativa
Meta ha presentado Llama 4, una nueva familia de modelos de inteligencia artificial que incorpora capacidades multimodales avanzadas y una arquitectura más eficiente al ecosistema de IA abierta.
Meta ha anunciado oficialmente el lanzamiento de la familia de modelos Llama 4, introduciendo cambios arquitectónicos significativos respecto a sus predecesores, principalmente la adopción de mixture of experts (MoE) y capacidades multimodales nativas. Los modelos liberados, Llama 4 Scout y Llama 4 Maverick, están diseñados para operar con eficiencia en hardware de consumo empresarial, mientras que un tercer modelo de mayor escala, Llama 4 Behemoth, continúa en fase de entrenamiento.
Today is the start of a new era of natively multimodal AI innovation.
— AI at Meta (@AIatMeta) April 5, 2025
Today, we’re introducing the first Llama 4 models: Llama 4 Scout and Llama 4 Maverick — our most advanced models yet and the best in their class for multimodality.
Llama 4 Scout
• 17B-active-parameter model… pic.twitter.com/Z8P3h0MA1P
Especificaciones técnicas y arquitectura MoE
La transición a una arquitectura MoE permite desacoplar el coste de inferencia del conteo total de parámetros, utilizando un esquema de computación condicional donde solo un subconjunto de los pesos se activa por token. Para un análisis detallado sobre cómo esta arquitectura optimiza el cómputo, ver nuestro artículo sobre Mixture of Experts: Sparse Activation y Estrategias de Routing en LLMs.
Los modelos presentados poseen las siguientes características técnicas:
| Característica | Llama 4 Scout | Llama 4 Maverick |
| Parámetros Activos | 17B | 17B |
| Parámetros Totales | 109B | 400B |
| Arquitectura | MoE (16 expertos) | MoE (128 expertos + 1 compartido) |
| Context Window | 10 Millones de tokens | 128K (estándar) |
| Infraestructura | 1 GPU NVIDIA H100 (Int4) | 1 Host NVIDIA H100 DGX |
| Enfoque | Contexto largo, summarización | Razonamiento, coding, uso general |
Llama 4 Scout introduce una arquitectura denominada iRoPE, que utiliza capas de atención intercaladas (interleaved attention) sin embeddings posicionales tradicionales, combinadas con un escalado de temperatura en tiempo de inferencia para gestionar la generalización de longitud. Esto permite procesar una context window de hasta 10 millones de tokens, superando las limitaciones cuadráticas tradicionales analizadas en Context Window en Transformers.
Por su parte, Llama 4 Maverick utiliza una estrategia de enrutamiento con 128 expertos y un experto compartido, optimizando la capacidad de representación del modelo sin incrementar proporcionalmente la latencia. Este modelo ha sido destilado a partir de Llama 4 Behemoth (288B activos, ~2T totales), utilizando una nueva función de pérdida que pondera dinámicamente los objetivos "soft" y "hard" durante el entrenamiento.
Pipeline de Post-Training y Multimodalidad
A diferencia de iteraciones anteriores que dependían fuertemente de rlhf estándar, Llama 4 implementa un pipeline revisado para equilibrar las capacidades multimodales y de razonamiento. El proceso, descrito en el blog técnico de Meta, sugiere una evolución hacia métodos más iterativos y selectivos.
Sobre la estrategia de alineación y optimización, el equipo de ingeniería de Meta detalla:
"Con Llama 4, renovamos nuestro pipeline de post-entrenamiento adoptando un enfoque diferente: fine-tuning supervisado (SFT) ligero > aprendizaje por refuerzo (RL) en línea > optimización de preferencia directa (DPO) ligera. Un aprendizaje clave fue que SFT y DPO pueden restringir excesivamente el modelo, limitando la exploración durante la etapa de RL en línea y conduciendo a una precisión subóptima [...]. Para abordar esto, eliminamos más del 50% de nuestros datos etiquetados como fáciles [...] e hicimos un SFT ligero en el conjunto restante más difícil. [...] Implementamos una estrategia continua de RL en línea, donde alternamos entre entrenar el modelo y luego usarlo para filtrar y retener continuamente solo los prompts de dificultad media a alta."
— The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation.
Este enfoque de filtrado dinámico y RL continuo se alinea con las técnicas modernas de optimización de preferencias humanas discutidas en nuestro análisis sobre RLHF.
En cuanto a la multimodalidad, los modelos utilizan "early fusion" para integrar tokens de texto y visión en un backbone unificado, entrenado con más de 30 billones de tokens de datos mixtos. El codificador de visión se basa en una variante de MetaCLIP entrenada conjuntamente con el LLM congelado.
Disponibilidad y Restricciones
Los modelos han sido entrenados utilizando precisión FP8 para maximizar la utilización de FLOPs, alcanzando 390 TFLOPs/GPU durante el pre-entrenamiento de Behemoth. La eficiencia en el despliegue se ve beneficiada por técnicas de quantization (Int4 para Scout), un tema que profundizamos en Post-Training Quantization en LLMs.
Los pesos de los modelos están disponibles para descarga en Llama.com y Hugging Face. Sin embargo, existen restricciones geográficas notables: debido al entorno regulatorio de la Unión Europea, los modelos no están disponibles para usuarios o empresas domiciliados en dicha región. Adicionalmente, se mantiene la cláusula de licencia que requiere autorización explícita para plataformas con más de 700 millones de usuarios activos mensuales.
Fuentes: