QwQ-32B supera a modelos de mayor escala

Un enfoque de entrenamiento en dos fases mediante aprendizaje por refuerzo permite a este modelo de 32 mil millones de parámetros obtener resultados similares a modelos con hasta 671 mil millones de parámetros, sugiriendo la importancia del método de entrenamiento frente al tamaño.

QwQ-32B supera a modelos de mayor escala

El equipo de Qwen ha anunciado el lanzamiento de QwQ-32B, un modelo de lenguaje diseñado específicamente para tareas de razonamiento complejo. Con 32.5 mil millones de parámetros, el modelo reporta métricas de rendimiento comparables a arquitecturas significativamente más grandes, como DeepSeek-R1 (671B) y o1-mini, destacando la eficiencia de las nuevas metodologías de post-entrenamiento basadas en reinforcement-learning.

El modelo se basa en la arquitectura de Qwen2.5-32B y utiliza un proceso de entrenamiento híbrido que combina pre-entrenamiento masivo con fases de ajuste supervisado y aprendizaje por refuerzo a escala. Esta liberación se realiza bajo la licencia Apache 2.0, permitiendo su uso comercial y modificación.

Especificaciones y Arquitectura

QwQ-32B mantiene la arquitectura densa de la serie Qwen2.5, evitando la complejidad de los sistemas Mixture of Experts (MoE) en favor de una estructura que facilita el despliegue en hardware de consumo de gama alta (como una configuración dual de RTX 3090/4090).

EspecificaciónDetalle
Modelo BaseQwen2.5-32B
Parámetros32.5B (31.0B no-embedding)
Context Window131,072 tokens
LicenciaApache 2.0
MetodologíaCold-start + RL Scaling (Outcome-based rewards)
AtenciónGrouped Query Attention (GQA) con 40 cabezas Q y 8 KV

El modelo integra soporte nativo para YaRN (Yet another RoPE extensioN), necesario para manejar secuencias que superen los 8,192 tokens de forma efectiva.

Metodología de entrenamiento: Escalado de RL

El aspecto técnico más relevante de QwQ-32B es su desviación de los métodos tradicionales de Reward Models (RM) basados en preferencias humanas difusas. En su lugar, el equipo empleó validadores deterministas basados en resultados (outcome-based rewards), una técnica alineada con los conceptos explorados en arquitecturas RLVR.

"Comenzamos con un checkpoint de arranque en frío (cold-start) e implementamos un enfoque de escalado de aprendizaje por refuerzo (RL) impulsado por recompensas basadas en resultados. En la etapa inicial, escalamos el RL específicamente para tareas de matemáticas y programación. En lugar de depender de modelos de recompensa tradicionales, utilizamos un verificador de precisión para problemas matemáticos para asegurar la corrección de las soluciones finales y un servidor de ejecución de código para evaluar si los códigos generados pasan exitosamente los casos de prueba predefinidos."
Qwen Team

Esta metodología permite que el modelo optimice su cadena de pensamiento (chain-of-thought) mediante señales de retroalimentación claras (compilación exitosa o respuesta numérica correcta), reduciendo las alucinaciones en dominios técnicos.

"Nuestra investigación explora la escalabilidad del Aprendizaje por Refuerzo (RL) y su impacto en la mejora de la inteligencia de los grandes modelos de lenguaje. Estamos entusiasmados de presentar QwQ-32B, un modelo con 32 mil millones de parámetros que logra un rendimiento comparable al de DeepSeek-R1, el cual cuenta con 671 mil millones de parámetros (con 37 mil millones activados). Este resultado notable subraya la eficacia del RL cuando se aplica a modelos base robustos preentrenados con un amplio conocimiento del mundo."
Qwen Team

Rendimiento y Benchmarks

Según los reportes oficiales, QwQ-32B muestra una capacidad competitiva frente a modelos de "razonamiento profundo" (System 2) en benchmarks clave:

  • Matemáticas (MATH, AIME): Rendimiento superior o equivalente a DeepSeek-R1-Distilled-Llama-70B y competitivo con el DeepSeek-R1 original.
  • Programación (LiveCodeBench): Mejoras significativas gracias a la integración de agentes y ejecución de código durante el entrenamiento.
  • Razonamiento General: El modelo ha sido ajustado para mantener capacidades generales (instrucciones, seguridad) mediante una segunda fase de RL con recompensas generales, mitigando la degradación de habilidades no técnicas ("alignment tax").

Implicaciones técnicas

La liberación de QwQ-32B consolida la tendencia de trasladar el cómputo de la fase de pre-entrenamiento a la fase de inferencia y post-entrenamiento. Al forzar al modelo a generar tokens de pensamiento (<think>), se permite una exploración más profunda del espacio de soluciones antes de emitir una respuesta final.

Para los desarrolladores, esto implica:

  1. Ajuste de Prompts: Es necesario estandarizar el formato de salida (ej. usar \boxed{} para matemáticas) y permitir la generación de tokens de pensamiento para obtener el máximo rendimiento.
  2. Latencia: El proceso de razonamiento incrementa el número de tokens generados y, por ende, la latencia y el coste por consulta.
  3. Inferencia: Se recomienda el uso de parámetros de muestreo específicos (Temperature 0.6, TopP 0.95) para evitar bucles de repetición, un problema común en modelos densos de razonamiento.

Fuentes y enlaces