Kimi k2.5: Multimodalidad nativa y orquestación paralela mediante Agent Swarm
Moonshot AI libera Kimi k2.5, entrenado con 15T tokens mixtos y una ventana de contexto de 256k. Introduce Parallel-Agent Reinforcement Learning (PARL) para coordinar hasta 100 sub-agentes, reduciendo la latencia de ejecución en tareas complejas mediante paralelismo masivo.
Moonshot AI ha presentado Kimi k2.5, una evolución de su arquitectura de llm que integra capacidades multimodales nativas y un nuevo paradigma de ejecución denominado Agent Swarm. El modelo ha sido pre-entrenado sobre aproximadamente 15 trillones de tokens mixtos (visión y texto) y destaca por su capacidad para orquestar hasta 100 sub-agentes autónomos que ejecutan flujos de trabajo paralelos, soportando hasta 1.500 llamadas a herramientas (tool calls) en una sola sesión.
A diferencia de las arquitecturas de agentes secuenciales tradicionales, Kimi k2.5 utiliza un orquestador entrenable que descompone tareas en sub-tareas paralelizables, ejecutadas por instancias congeladas del modelo. Esta metodología busca mitigar los cuellos de botella de latencia inherentes a los bucles de razonamiento largos, un problema analizado previamente en arquitecturas ReAct.
Here's a short video from our founder, Zhilin Yang.
— Kimi.ai (@Kimi_Moonshot) January 27, 2026
(It's his first time speaking on camera like this, and he really wanted to share Kimi K2.5 with you!) pic.twitter.com/2uDSOjCjly
Especificaciones y PARL
La arquitectura introduce Parallel-Agent Reinforcement Learning (PARL), una técnica de alineación diseñada para evitar el colapso serial (donde el orquestador recurre a la ejecución secuencial por defecto). El sistema emplea una función de recompensa escalonada que incentiva la instanciación de sub-agentes en las etapas iniciales del entrenamiento, profundizaremos más en un próximo artículo, por ahora podemo precisar que la fórmula matemática de la recompensa utilizada en PARL se define como:
$$R_t = \lambda_{aux}(e) \cdot r_{parallel} + (1 - \lambda_{aux}(e)) \cdot (\mathbb{I}[success] \cdot Q(\tau))$$
Donde $\lambda_{aux}(e)$ decae de 0.1 a 0.0 durante el entrenamiento. El término $r_{parallel}$ actúa como una recompensa auxiliar para fomentar la exploración del espacio de planificación paralela, mientras que $Q(\tau)$ evalúa la calidad del resultado final.
Para medir la eficiencia de este enfoque, Moonshot AI introduce la métrica de Pasos Críticos (Critical Steps), inspirada en la computación paralela, para penalizar la ejecución secuencial innecesaria:
$$CriticalSteps = \sum_{t=1}^{T} (S_{main}(t) + \max_{i} S_{sub,i}(t))$$
Aquí, $S_{main}(t)$ representa la sobrecarga del orquestador y el término $\max$ captura al sub-agente más lento en cada etapa, forzando al modelo a optimizar la ruta crítica de ejecución.
Datos técnicos del modelo
- Contexto: 256.000 tokens (compatible con caché de contexto).
- Modalidad: Nativa multimodal (imágenes y video como input directo). Soporta videos de hasta 2K y resolución de imágenes hasta 4K.
- Precios API:
- Input (Cache Hit): $0.10 / 1M tokens.
- Input (Cache Miss): $0.60 / 1M tokens.
- Output: $3.00 / 1M tokens.
- Benchmarks: En evaluaciones internas, el modo Agent Swarm reduce el tiempo de ejecución (wall-clock time) hasta en 4.5x comparado con configuraciones de un solo agente.
Extractos del reporte técnico
Sobre la transición de escalado de inferencia a ejecución distribuida:
"Lanzamos K2.5 Agent Swarm como una vista previa de investigación, marcando un cambio del escalado de un solo agente a una ejecución coordinada tipo enjambre auto-dirigida. Entrenado con Aprendizaje por Refuerzo de Agentes Paralelos (PARL), K2.5 aprende a auto-dirigir un enjambre de agentes de hasta 100 sub-agentes [...] sin roles predefinidos ni flujos de trabajo hechos a mano."
Respecto a la metodología de entrenamiento del orquestador:
"Entrenar un orquestador paralelo fiable es un desafío debido a la retroalimentación retrasada, dispersa y no estacionaria de los sub-agentes que se ejecutan de forma independiente. Un modo de fallo común es el colapso serial, donde el orquestador predetermina la ejecución de un solo agente a pesar de tener capacidad paralela. Para abordar esto, PARL emplea una conformación de recompensas por etapas."
Contexto y capacidades de codificación
Kimi k2.5 representa una iteración significativa sobre Kimi k2, modelo liberado anteriormente con arquitectura mixture-of-experts. Mientras que k2 se centraba en la eficiencia de parámetros activos (32B), k2.5 prioriza la integración multimodal para tareas de ingeniería de software "end-to-end".
El modelo demuestra capacidades de depuración visual autónoma, permitiendo inspeccionar la salida renderizada de su propio código para iterar sobre interfaces de usuario y animaciones complejas. En benchmarks como SWE-bench Verified y evaluaciones internas (Kimi Code Bench), el modelo reporta mejoras consistentes en tareas de refactorización y testing.
Esta capacidad de razonamiento visual se alinea con la tendencia de integrar chain-of-thought no solo en texto, sino en el procesamiento de inputs visuales, eliminando la necesidad de descripciones textuales intermedias para tareas de frontend.
Disponibilidad
Kimi k2.5 está disponible inmediatamente a través de la API de Moonshot AI y la plataforma Kimi.com. El modelo soporta cuatro modos de operación: Instant, Thinking, Agent y Agent Swarm (actualmente en Beta). La integración con IDEs se facilita mediante la herramienta Kimi Code.
Fuentes: