
IA
QwQ-32B supera a modelos de mayor escala
Un enfoque de entrenamiento en dos fases mediante aprendizaje por refuerzo permite a este modelo de 32 mil millones de parámetros obtener resultados similares a modelos con hasta 671 mil millones de parámetros, sugiriendo la importancia del método de entrenamiento frente al tamaño.