MiniMax M2.1: Modelo MoE de 230B parámetros

MiniMax libera M2.1 con arquitectura Mixture of Experts (10B activos). Supera a Claude Sonnet 4.5 en SWE-bench Verified y presenta OctoCodingBench para evaluar cumplimiento de instrucciones de proceso.

MiniMax M2.1: Modelo MoE de 230B parámetros

MiniMax lanza M2.1: Modelo MoE de 230B parámetros optimizado para agentes de código y entornos multilingües

MiniMax libera M2.1 con arquitectura Mixture of Experts (10B activos). Supera a Claude Sonnet 4.5 en SWE-bench Verified y presenta OctoCodingBench para evaluar cumplimiento de instrucciones de proceso.


MiniMax ha anunciado oficialmente el lanzamiento de MiniMax-M2.1, un large language model de código abierto diseñado específicamente para tareas de ingeniería de software y agentes autónomos. El modelo utiliza una arquitectura mixture of experts (MoE) y se centra en mejorar la generalización en lenguajes compilados, la gestión del contexto y el cumplimiento estricto de instrucciones de andamiaje (scaffolding) en flujos de trabajo de producción.

Especificaciones y Arquitectura

El modelo M2.1 presenta una arquitectura MoE con un total aproximado de 230.000 millones de parámetros, de los cuales solo ~10.000 millones se activan durante la inferencia. Esta configuración permite mantener una latencia de inferencia baja, crucial para bucles de agentes que requieren múltiples pasos de razonamiento, desacoplando el coste computacional de la capacidad de representación total.

El modelo ha sido liberado bajo la licencia Modified-MIT y está disponible para despliegue local mediante frameworks como SGLang y vLLM.

Rendimiento en Benchmarks

MiniMax reporta resultados competitivos frente a modelos cerrados de vanguardia, destacando particularmente en evaluaciones multilingües y de agentes.

BenchmarkMiniMax-M2.1Claude Sonnet 4.5GPT-5.2 (thinking)DeepSeek V3.2
SWE-bench Verified74.077.280.073.1
SWE-bench Multilingual72.568.072.070.2
Multi-SWE-bench49.444.3-37.4
VIBE (Average)88.685.2--

El modelo muestra una mejora notable en la generalización a través de diferentes scaffolds de agentes (como Claude Code, Droid y mini-swe-agent), manteniendo una puntuación por encima de 67 en SWE-bench Verified independientemente del entorno utilizado.

Metodología de Post-Entrenamiento y RL

El desarrollo de M2.1 se basó en un pipeline de datos sintéticos y un proceso de reinforcement learning (RL) optimizado para agentes.

Algoritmo CISPO

Para la fase de RL, MiniMax utilizó el algoritmo CISPO (Constructive Importance Sampling Policy Optimization). A diferencia de PPO, que utiliza clipping en la función objetivo para descartar actualizaciones demasiado agresivas (lo que a veces filtra tokens de transición importantes), CISPO aplica el recorte directamente sobre los pesos de importance sampling.

El objetivo se puede formular como una variante de REINFORCE con corrección off-policy:

$$J(\theta) = \mathbb{E}_{\tau \sim \pi_{\text{old}}} \left[ \text{clip}\left(\frac{\pi_\theta(a_t|s_t)}{\pi_{\text{old}}(a_t|s_t)}, 1-\epsilon, 1+\epsilon\right) A^{\pi_{\text{old}}}(s_t, a_t) \right]$$

Donde $\frac{\pi_\theta}{\pi_{\text{old}}}$ representa el peso de importancia que ajusta la discrepancia entre la política de comportamiento y la política objetivo, y $A^{\pi_{\text{old}}}$ es la función de ventaja estimada. Esto permite que todos los tokens reciban gradientes, reduciendo la varianza del proceso de optimización sin perder información estructural del lenguaje.

SWE Scaling y Entornos Multilingües

Uno de los desafíos abordados fue la limitación de los benchmarks actuales, centrados casi exclusivamente en Python. M2.1 implementó un sistema de Environment Scaling en GitHub, construyendo una infraestructura sandbox capaz de lanzar más de 5.000 entornos aislados en 10 segundos para soportar el entrenamiento en lenguajes compilados como Java, C++, Rust y Go.

"A menudo vemos desarrolladores quejarse de que los agentes de codificación actuales funcionan bien en lenguajes como Python/JavaScript pero muestran resultados mediocres en escenarios de desarrollo empresarial más serios. (...) Python, como lenguaje interpretado, tiene una configuración relativamente simple. Sin embargo, para lenguajes compilados como Java, Go, Rust y C++, necesitamos manejar cadenas de herramientas de compilación complejas, compatibilidad de versiones y problemas de compilación cruzada."

Nuevas Métricas: OctoCodingBench y VIBE

Junto con el modelo, MiniMax ha introducido nuevas metodologías de evaluación para abordar las limitaciones de los benchmarks basados únicamente en resultados finales (Outcome-based Metrics).

OctoCodingBench se centra en la supervisión del proceso, introduciendo dos métricas clave:

  • Check-level Success Rate (CSR): Proporción de reglas seguidas.
  • Instance-level Success Rate (ISR): Mide si el agente cumple todas las reglas simultáneamente en una tarea.

Según los datos reportados, aunque la mayoría de modelos logran un CSR superior al 80%, el ISR cae dramáticamente al 10-30%, indicando fallos frecuentes en el cumplimiento de especificaciones de proyecto (como convenciones de nombrado en AGENTS.md o restricciones de seguridad).

"Si aceptamos que solo un Agente de Codificación capaz de adherirse a las especificaciones del proceso puede integrarse con confianza en flujos de trabajo de ingeniería de software del mundo real, entonces los marcos de evaluación actuales revelan un punto ciego significativo. (...) Los usuarios exigen no simplemente 'código que se ejecute', sino 'código que se adhiera a los estándares de colaboración del equipo'."

Adicionalmente, el benchmark VIBE (Visual & Interactive Benchmark for Execution) evalúa el desarrollo full-stack mediante un paradigma de Agent-as-a-Verifier, donde un agente secundario interactúa con la aplicación generada en un entorno de ejecución real para validar lógica visual y funcional.

Fuentes y recursos