MiniMax M2: Arquitectura MoE con 230 mil millones de parámetros
MiniMax presenta M2, un modelo Mixture of Experts con 230 mil millones de parámetros totales y 10 mil millones activos. Diseñado específicamente para flujos de trabajo de codificación y agentes autónomos, se publica con pesos abiertos y una licencia modificada MIT.
MiniMax ha anunciado y liberado oficialmente MiniMax-M2, un modelo de lenguaje basado en la arquitectura Mixture of Experts (MoE) diseñado para optimizar el rendimiento en tareas de programación y el uso de herramientas por parte de agentes autónomos. El modelo, que cuenta con 230 mil millones de parámetros totales pero limita sus parámetros activos a 10 mil millones por token, busca resolver el compromiso entre latencia, coste y capacidad de razonamiento en flujos de trabajo complejos.
El desarrollo se centra en la eficiencia del bucle de "planificación-acción-verificación", permitiendo tiempos de respuesta más rápidos en tareas que requieren múltiples pasos, como la edición de repositorios de código o la navegación web profunda. MiniMax-M2 está disponible mediante API y sus pesos pueden descargarse desde Hugging Face para implementación local.
Especificaciones y Arquitectura
MiniMax-M2 implementa una arquitectura MoE que permite mantener una huella computacional baja durante la inferencia, a pesar de su gran conteo total de parámetros.
| Característica | Especificación |
| Arquitectura | Mixture of Experts (MoE) |
| Parámetros Totales | 230 Billones (230B) |
| Parámetros Activos | 10 Billones (10B) |
| Context Window | Validado hasta 128k tokens |
| Licencia | Modified MIT |
| Coste API (Input) | $0.30 / 1M tokens |
| Coste API (Output) | $1.20 / 1M tokens |
| Velocidad | ~100 tokens/segundo (TPS) |
El modelo ha sido entrenado para mantener el contexto del "pensamiento" (thinking) de manera intercalada. Para su correcto funcionamiento en despliegues locales, es crítico preservar las etiquetas <think>...</think> en el historial de la conversación, ya que su eliminación degrada el rendimiento del modelo.
"Al mantener las activaciones alrededor de 10B, el bucle planificar → actuar → verificar en el flujo de trabajo del agente se agiliza, mejorando la capacidad de respuesta y reduciendo la sobrecarga computacional:Ciclos de retroalimentación más rápidos en cadenas de compilación-ejecución-prueba y navegación-recuperación-cita.Más ejecuciones concurrentes con el mismo presupuesto para suites de regresión y exploraciones multi-semilla.Planificación de capacidad más simple con una memoria por solicitud más pequeña y una latencia de cola más estable."
Rendimiento en Benchmarks
MiniMax reporta resultados competitivos en evaluaciones de codificación y uso de herramientas, posicionándose cerca de modelos propietarios de mayor tamaño como Claude 3.5 Sonnet en tareas específicas.
En SWE-bench Verified, un benchmark crítico para la ingeniería de software autónoma, MiniMax-M2 alcanza una puntuación de 69.4%, superando a modelos como GPT-4o (versión 0513) y quedando ligeramente por debajo de Claude 3.5 Sonnet (72.7%). En pruebas de uso de terminal (Terminal-Bench), el modelo obtiene un 46.3%, demostrando capacidad para ejecutar comandos y scripts complejos.
El modelo también se ha evaluado en Artificial Analysis, donde obtiene un puntaje compuesto de inteligencia de 61, superando a modelos como GPT-4o-mini y Llama 3.1 70B en métricas agregadas.
Despliegue e Integración
MiniMax-M2 es compatible desde el día cero con frameworks de inferencia de alto rendimiento como vLLM y SGLang, facilitando su adopción en infraestructura propia.
Para el uso de herramientas (Tool Use), el modelo soporta la definición de funciones y llamadas complejas, integrándose con entornos que requieren manipulación de navegador, intérpretes de código Python y herramientas del protocolo MCP. La empresa destaca que el modelo ha sido utilizado internamente para tareas de análisis de datos, investigación técnica y filtrado de currículums antes de su liberación pública.
Actualmente, el acceso a la API es gratuito por tiempo limitado hasta el 7 de noviembre, y el modelo está disponible en la plataforma Hugging Face para descarga inmediata.
Fuentes: