QwQ-32B supera a modelos de mayor escala

Un enfoque de entrenamiento en dos fases mediante aprendizaje por refuerzo permite a este modelo de 32 mil millones de parámetros obtener resultados similares a modelos con hasta 671 mil millones de parámetros, sugiriendo la importancia del método de entrenamiento frente al tamaño.

Richard Barria

14 mar. 2025 — 3 min read

Los modelos de inteligencia artificial de alto rendimiento generalmente requieren cientos de miles de millones de parámetros y hardware especializado. El equipo detrás de QwQ-32B presenta un caso donde la metodología de entrenamiento parece ser tan importante como el número de parámetros.

Today, we release QwQ-32B, our new reasoning model with only 32 billion parameters that rivals cutting-edge reasoning model, e.g., DeepSeek-R1.

Blog: https://t.co/zCgACNdodj
HF: https://t.co/pfjZygOiyQ
ModelScope: https://t.co/hcfOD8wSLa
Demo: https://t.co/DxWPzAg6g8
Qwen Chat:… pic.twitter.com/kfvbNgNucW
— Qwen (@Alibaba_Qwen) March 5, 2025

Avances en aprendizaje por refuerzo

El reciente lanzamiento de QwQ-32B muestra un enfoque diferente al escalado en inteligencia artificial. Con 32 mil millones de parámetros, este modelo ha logrado resultados comparables a DeepSeek-R1, que cuenta con 671 mil millones de parámetros (con 37 mil millones activados simultáneamente).

El resultado se debe a su enfoque de entrenamiento en dos fases mediante aprendizaje por refuerzo (RL). A diferencia de los métodos que utilizan modelos de recompensa basados en patrones, QwQ-32B implementa validadores basados en resultados.

Este método prioriza la obtención de respuestas correctas sobre la imitación de patrones, evaluando directamente la precisión de las soluciones matemáticas y la funcionalidad del código generado.

Arquitectura densa vs. Mezcla de Expertos (MoE)

Otra decisión clave que distingue a QwQ-32B es su apuesta por una arquitectura de modelo densa en lugar de la cada vez más popular Mezcla de Expertos (MoE). Mientras los modelos MoE activan diferentes módulos especializados según la tarea, QwQ-32B mantiene todos sus parámetros activos para cada entrada.

Esta elección arquitectónica ofrece ventajas significativas:

Simplicidad operativa: No requiere complejos sistemas de enrutamiento o activación selectiva.
Eficiencia computacional: Aprovecha mejor las optimizaciones estándar de los GPUs modernos.
Accesibilidad: Puede ejecutarse en hardware de nivel consumidor como una RTX4090 o incluso en dispositivos Apple con chip M4 Max.

La curiosa tendencia a "sobrepensar"

Durante las pruebas de inferencia, QwQ-32B exhibe un comportamiento peculiar que los investigadores han denominado "overthinking" (sobrepensar). Incluso ante problemas relativamente simples, el modelo muestra una cautela inusual, verificando repetidamente sus razonamientos con frases como "espera", "déjame verificar" o "alternativamente".

Este fenómeno probablemente deriva de su entrenamiento por refuerzo, donde se premiaba el razonamiento meticuloso y verificado. Aunque este comportamiento ralentiza las respuestas, también reduce significativamente los errores y las alucinaciones, permitiéndole competir con modelos mucho más grandes.

En una prueba de conteo básica, QwQ-32B consumió 1,724 tokens y casi un minuto para completar una tarea que otros modelos resolverían en segundos, pero con una precisión notablemente superior.

El desafío filosófico: "¿Quién soy yo?"

Uno de los tests más interesantes aplicados a QwQ-32B fue el desafío "¿Quién soy yo?", una pregunta abstracta que muchos modelos no razonadores suelen fallar. La capacidad del modelo para discernir la intención del usuario —determinar si busca orientación personal o una discusión filosófica— y ofrecer respuestas reflexivas demuestra su sofisticación cognitiva.

El modelo aborda estas preguntas abstractas mediante un proceso de razonamiento en cadena, considerando múltiples interpretaciones, evaluando el estado emocional implícito del usuario, y ofreciendo sugerencias prácticas para la autorreflexión, todo mientras mantiene un tono conversacional accesible.

Implicaciones futuras y accesibilidad

QwQ-32B no es solo un avance técnico; representa una democratización del acceso a inteligencia artificial avanzada. Lanzado bajo la licencia Apache 2.0, permite a desarrolladores individuales y equipos pequeños experimentar con IA de vanguardia a una fracción del costo tradicional.

Los desafíos actuales incluyen las limitaciones de memoria (requiere aproximadamente 80GB de VRAM en su versión completa) y la tendencia al "overthinking", pero las versiones cuantizadas como Q4_K_M reducen los requerimientos a aproximadamente 20GB mientras mantienen un rendimiento razonable.

El equipo de QwQ-32B anticipa futuras mejoras enfocadas en:

Reducir el comportamiento de "overthinking" para acelerar las respuestas sin sacrificar precisión
Mejorar los métodos de cuantización para permitir que incluso la versión completa funcione en hardware más modesto
Ampliar la adopción a medida que los modelos avanzados se vuelven más fáciles de implementar localmente

Conclusión

QwQ-32B presenta un caso de estudio relevante en el diseño de modelos de lenguaje, donde el método de entrenamiento y la arquitectura pueden compensar un menor número de parámetros. Su enfoque de entrenamiento en dos fases y su arquitectura densa combinan rendimiento con mayor accesibilidad.

Mientras muchos desarrolladores se concentran en aumentar el tamaño de los modelos, QwQ-32B sugiere que la eficiencia en el diseño puede ofrecer buenos resultados con menos recursos computacionales. Este enfoque podría facilitar el acceso a modelos avanzados para equipos con limitaciones de hardware.