MiniMax M2: Arquitectura MoE con 230 mil millones de parámetros

MiniMax presenta M2, un modelo Mixture of Experts con 230 mil millones de parámetros totales y 10 mil millones activos. Diseñado específicamente para flujos de trabajo de codificación y agentes autónomos, se publica con pesos abiertos y una licencia modificada MIT.

MiniMax M2: Arquitectura MoE con 230 mil millones de parámetros

MiniMax ha anunciado y liberado oficialmente MiniMax-M2, un modelo de lenguaje basado en la arquitectura Mixture of Experts (MoE) diseñado para optimizar el rendimiento en tareas de programación y el uso de herramientas por parte de agentes autónomos. El modelo, que cuenta con 230 mil millones de parámetros totales pero limita sus parámetros activos a 10 mil millones por token, busca resolver el compromiso entre latencia, coste y capacidad de razonamiento en flujos de trabajo complejos.

El desarrollo se centra en la eficiencia del bucle de "planificación-acción-verificación", permitiendo tiempos de respuesta más rápidos en tareas que requieren múltiples pasos, como la edición de repositorios de código o la navegación web profunda. MiniMax-M2 está disponible mediante API y sus pesos pueden descargarse desde Hugging Face para implementación local.

Especificaciones y Arquitectura

MiniMax-M2 implementa una arquitectura MoE que permite mantener una huella computacional baja durante la inferencia, a pesar de su gran conteo total de parámetros.

CaracterísticaEspecificación
ArquitecturaMixture of Experts (MoE)
Parámetros Totales230 Billones (230B)
Parámetros Activos10 Billones (10B)
Context WindowValidado hasta 128k tokens
LicenciaModified MIT
Coste API (Input)$0.30 / 1M tokens
Coste API (Output)$1.20 / 1M tokens
Velocidad~100 tokens/segundo (TPS)

El modelo ha sido entrenado para mantener el contexto del "pensamiento" (thinking) de manera intercalada. Para su correcto funcionamiento en despliegues locales, es crítico preservar las etiquetas <think>...</think> en el historial de la conversación, ya que su eliminación degrada el rendimiento del modelo.

"Al mantener las activaciones alrededor de 10B, el bucle planificar → actuar → verificar en el flujo de trabajo del agente se agiliza, mejorando la capacidad de respuesta y reduciendo la sobrecarga computacional:Ciclos de retroalimentación más rápidos en cadenas de compilación-ejecución-prueba y navegación-recuperación-cita.Más ejecuciones concurrentes con el mismo presupuesto para suites de regresión y exploraciones multi-semilla.Planificación de capacidad más simple con una memoria por solicitud más pequeña y una latencia de cola más estable."

Rendimiento en Benchmarks

MiniMax reporta resultados competitivos en evaluaciones de codificación y uso de herramientas, posicionándose cerca de modelos propietarios de mayor tamaño como Claude 3.5 Sonnet en tareas específicas.

En SWE-bench Verified, un benchmark crítico para la ingeniería de software autónoma, MiniMax-M2 alcanza una puntuación de 69.4%, superando a modelos como GPT-4o (versión 0513) y quedando ligeramente por debajo de Claude 3.5 Sonnet (72.7%). En pruebas de uso de terminal (Terminal-Bench), el modelo obtiene un 46.3%, demostrando capacidad para ejecutar comandos y scripts complejos.

El modelo también se ha evaluado en Artificial Analysis, donde obtiene un puntaje compuesto de inteligencia de 61, superando a modelos como GPT-4o-mini y Llama 3.1 70B en métricas agregadas.

Despliegue e Integración

MiniMax-M2 es compatible desde el día cero con frameworks de inferencia de alto rendimiento como vLLM y SGLang, facilitando su adopción en infraestructura propia.

Para el uso de herramientas (Tool Use), el modelo soporta la definición de funciones y llamadas complejas, integrándose con entornos que requieren manipulación de navegador, intérpretes de código Python y herramientas del protocolo MCP. La empresa destaca que el modelo ha sido utilizado internamente para tareas de análisis de datos, investigación técnica y filtrado de currículums antes de su liberación pública.

Actualmente, el acceso a la API es gratuito por tiempo limitado hasta el 7 de noviembre, y el modelo está disponible en la plataforma Hugging Face para descarga inmediata.


Fuentes: