Xiaomi publica la serie MiMo-V2: arquitectura de 1T parámetros, modelo multimodal Omni y motor TTS

Xiaomi lanza tres modelos fundacionales enfocados en la orquestación de agentes: MiMo-V2-Pro (1T parámetros), MiMo-V2-Omni (multimodalidad nativa) y MiMo-V2-TTS. Soportan contextos de 1M de tokens.

Xiaomi publica la serie MiMo-V2: arquitectura de 1T parámetros, modelo multimodal Omni y motor TTS

El 18 de marzo de 2026, Xiaomi hizo pública la disponibilidad de su nueva generación de modelos fundacionales para operaciones en entornos digitales y físicos. La serie está compuesta por MiMo-V2-Omni, un modelo con codificadores de imagen, video y audio fusionados; MiMo-V2-Pro, un modelo a gran escala optimizado para tareas de ingeniería y ejecución de código; y MiMo-V2-TTS, un sistema de síntesis de voz basado en una arquitectura multi-codebook.

Especificaciones y arquitectura de MiMo-V2-Pro

MiMo-V2-Pro está diseñado como el motor lógico principal para frameworks de automatización y alcanza más de 1 billón (1T) de parámetros totales.

  • Arquitectura MoE: Cuenta con 42 mil millones (42B) de parámetros activos durante la inference.
  • Ventana de contexto: Soporta hasta 1 millón de tokens.
  • Atención y latencia: Utiliza un mecanismo de Hybrid Attention con una proporción de 7:1 (frente al 5:1 de su predecesor) e implementa una capa de predicción de múltiples tokens (MTP) para acelerar la generación.
  • Adopción temprana: Durante su fase de pruebas fue listado anónimamente en OpenRouter bajo el seudónimo "Hunter Alpha", superando 1T de tokens procesados.

En las métricas de benchmark reportadas por la empresa, el modelo obtiene los siguientes resultados:

  • SWE-bench Verified: 78.0
  • ClawEval: 61.5
  • PinchBench (avg.): 81.0
  • Terminal-Bench 2.0: 57.1

MiMo-V2-Omni y procesamiento multimodal

A diferencia de los sistemas que procesan texto secuencialmente junto a representaciones visuales aisladas, MiMo-V2-Omni unifica la percepción combinando codificadores de imagen, video y audio en un único backbone. El modelo permite la ejecución de herramientas de software de manera nativa (tool use) y la referenciación de interfaces de usuario para el control de navegadores. Entre sus capacidades extendidas, soporta la ingesta continua de audio por más de 10 horas sin fragmentación.

"MiMo-V2-Omni fusiona codificadores dedicados de imagen, video y audio en un único backbone compartido — no como capacidades separadas unidas, sino como un flujo perceptivo unificado. El modelo ve, escucha y lee simultáneamente, de la manera en que debe operar un agente en el mundo real."

— Referencia: MiMo-V2-Omni | Xiaomi

En evaluaciones multimodales, el modelo registra:

  • MMMU-Pro (Imagen y razonamiento): 85.3
  • Video-MME (QA general en video): 94.0
  • MMAU-Pro (Razonamiento de audio): 76.8

Síntesis de voz con MiMo-V2-TTS

El componente de salida de audio, MiMo-V2-TTS, emplea un Audio Tokenizer propietario y fue preentrenado con más de 100 millones de horas de datos de voz. El sistema procesa inferencias semánticas directamente del texto, modificando la entonación basándose en formato tipográfico (mayúsculas, signos de puntuación) y deduciendo el estado emocional sin requerir etiquetas previas explícitas. También genera eventos paralingüísticos nativos como pausas, respiraciones y tos.

La arquitectura multi-codebook permite operar en un espacio de tokens discretos de alta fidelidad, sobre el cual se aplica aprendizaje por refuerzo multidimensional durante el fine-tuning. La función objetivo típica para la optimización de métricas acústicas mediante recompensas en sistemas de esta categoría se expresa como:

$$J(\theta) = \mathbb{E}_{a \sim \pi_\theta} \left[ \sum_{t=0}^T \gamma^t R(s_t, a_t) \right]$$

Donde $\pi_\theta$ representa la política de generación del modelo, $\gamma$ es el factor de descuento temporal para estabilizar el entrenamiento de secuencias largas, y $R(s_t, a_t)$ es la función de recompensa evaluada multidimensionalmente (prosodia, inteligibilidad fonética y fidelidad de clonación) en cada paso de tiempo discreto $t$.

Integración e implementación de ecosistema

Los modelos cuentan con integración nativa al framework open source OpenClaw, encargado de la orquestación del entorno, gestión de archivos y control de navegador para las acciones emitidas por el modelo. Adicionalmente, MiMo-V2-Pro está siendo integrado con frameworks de desarrollo de agentes como OpenCode, KiloCode, Blackbox y Cline.

La API de MiMo-V2-Pro se ha estructurado en niveles de coste según la longitud del contexto:

  • Hasta 256K tokens: $1 entrada / $3 salida por cada millón de tokens.
  • 256K a 1M tokens: $2 entrada / $6 salida por cada millón de tokens.
  • La escritura en el MiMo Cache se mantiene temporalmente libre de costo.

Fuentes oficiales