Cómo DeepSeek-R1 impacta el desarrollo de la inteligencia artificial

DeepSeek-AI libera R1, un modelo MoE de 671B parámetros que introduce un pipeline de entrenamiento basado en "Cold Start" y Reinforcement Learning multi-etapa. Incluye variantes destiladas que superan a modelos propietarios en eficiencia.

Cómo DeepSeek-R1 impacta el desarrollo de la inteligencia artificial

DeepSeek-AI ha marcado un hito en la ingeniería de modelos de lenguaje con la publicación técnica y liberación de pesos de DeepSeek-R1. Este modelo, basado en una arquitectura Mixture of Experts (MoE) con 671 mil millones de parámetros (37B activos por token), no solo compite con la serie o1 de OpenAI, sino que documenta abiertamente un nuevo paradigma de post-entrenamiento que prioriza el Reinforcement Learning (RL) sobre el Fine-Tuning Supervisado (SFT) tradicional para tareas de razonamiento.

El Pipeline de Entrenamiento: De R1-Zero a R1

El paper técnico revela que el desarrollo de R1 no fue lineal, sino la evolución de una variante experimental llamada DeepSeek-R1-Zero.

1. DeepSeek-R1-Zero: RL Puro

La primera fase consistió en aplicar RL directamente sobre el modelo base (DeepSeek-V3-Base) sin utilizar datos supervisados de razonamiento previos. El objetivo era probar si la capacidad de razonamiento podía emerger solo mediante incentivos.

"Aplicamos directamente reinforcement learning (RL) al modelo base sin depender de supervised fine-tuning (SFT) como paso preliminar. Este enfoque permite al modelo explorar chain-of-thought (CoT) para resolver problemas complejos, resultando en el desarrollo de DeepSeek-R1-Zero. [...] Notablemente, es la primera investigación abierta que valida que las capacidades de razonamiento de los LLMs pueden ser incentivadas puramente a través de RL."

El resultado fue un modelo con potentes capacidades de resolución de problemas, pero con inestabilidad en el lenguaje (mezclando idiomas) y poca legibilidad.

2. DeepSeek-R1: El Método Cold-Start y Pipeline Multi-Etapa

Para corregir las limitaciones de R1-Zero, los investigadores diseñaron un pipeline de cuatro fases para el modelo final R1:

  1. Cold Start: Recopilación de un pequeño conjunto de datos de "larga cadena de pensamiento" (long CoT) de alta calidad para un ajuste inicial, enseñando al modelo cómo presentar su razonamiento.
  2. Reasoning-Oriented RL: Entrenamiento con RL enfocado exclusivamente en mejorar el razonamiento, utilizando la arquitectura GRPO.
  3. Rejection Sampling y SFT: Uso del checkpoint anterior para generar 600k muestras de razonamiento sintético, filtradas por corrección, combinadas con 200k muestras de tareas generales (escritura, QA) para un re-entrenamiento supervisado.
  4. RL para Alineación Final: Una segunda etapa de RL que equilibra el rendimiento en razonamiento con la utilidad y seguridad humana (Helpfulness/Harmlessness).

Algoritmo: Group Relative Policy Optimization (GRPO)

El núcleo del éxito de R1 reside en la eficiencia de su algoritmo de optimización. GRPO elimina la necesidad de un modelo crítico (Value Function) que suele ser tan costoso como el modelo de política en algoritmos como PPO.

En su lugar, GRPO estima la "ventaja" de una respuesta basándose en el rendimiento relativo de un grupo de salidas generadas para la misma pregunta. Matemáticamente, para una pregunta $q$, se muestrean $G$ salidas $\{o_1, o_2, ..., o_G\}$ y se optimiza el siguiente objetivo:

$$\mathcal{J}_{GRPO}(\theta) = \mathbb{E}\left[ \frac{1}{G} \sum_{i=1}^{G} \left( \min \left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} A_i, \text{clip}\left( \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) A_i \right) - \beta \mathbb{D}_{KL}(\pi_\theta || \pi_{ref}) \right) \right]$$

La ventaja $A_i$ se calcula normalizando las recompensas dentro del grupo, lo que estabiliza el entrenamiento sin el coste de memoria de un modelo crítico adicional:

$$A_i = \frac{r_i - \text{mean}(\{r_1, ..., r_G\})}{\text{std}(\{r_1, ..., r_G\})}$$

El "Momento Aha" y la Auto-Evolución

Uno de los hallazgos más fascinantes reportados en el paper es el comportamiento emergente durante el entrenamiento de R1-Zero. Sin instrucción explícita, el modelo aprendió a asignar más "tiempo de pensamiento" (tokens de razonamiento) a problemas complejos.

Los investigadores documentan un "momento aha" donde el modelo, por sí mismo, comienza a reevaluar sus pasos intermedios:

"DeepSeek-R1-Zero exhibe un 'momento aha', caracterizado por un aumento repentino en el uso de la palabra 'espera' (wait) durante las reflexiones [...]. Este momento marca un cambio distintivo en los patrones de razonamiento y muestra claramente el proceso de auto-evolución."

Esta capacidad de autocorrección y verificación es lo que permite al modelo superar barreras de precisión en matemáticas y código que los modelos entrenados solo con SFT no logran cruzar.

Destilación: Eficiencia en Modelos Densos

DeepSeek cuestiona la creencia de que se necesita un modelo gigante para razonar. Utilizando los datos generados por R1, han aplicado técnicas de destilación a modelos densos más pequeños (basados en Qwen-2.5 y Llama-3).

"Demostramos que los patrones de razonamiento de los modelos más grandes pueden destilarse en modelos más pequeños, resultando en un rendimiento superior en comparación con los patrones de razonamiento descubiertos a través de RL en modelos pequeños."

Los resultados de los modelos destilados son notables en benchmarks técnicos:

ModeloAIME 2024 (Pass@1)MATH-500 (Pass@1)CodeForces Rating
DeepSeek-R1 (671B)79.8%97.3%2029
OpenAI o1-mini63.6%90.0%1820
R1-Distill-Qwen-32B72.6%94.3%1691
R1-Distill-Llama-70B70.0%94.5%1633

El modelo destilado de 32B parámetros supera a o1-mini en tareas matemáticas (AIME) y se acerca peligrosamente en tareas de codificación, siendo ejecutable en hardware local de gama alta.

Limitaciones y Trabajo Futuro

A pesar del rendimiento, el equipo de DeepSeek reconoce limitaciones actuales en el reporte técnico:

  • Mezcla de Idiomas: El modelo puede cambiar de idioma (e.g., de inglés a chino) durante el proceso de pensamiento (CoT) debido a la naturaleza multilingüe del corpus de entrenamiento y la falta de restricciones iniciales en RL.
  • Ingeniería de Software: Aunque excelente en algoritmos (Codeforces), el rendimiento en tareas de ingeniería de software complejas (SWE-Bench) no muestra mejoras drásticas respecto al modelo base V3.
  • Sensibilidad al Prompt: R1 es sensible al formato del prompt. El "few-shot prompting" (dar ejemplos) a menudo degrada su rendimiento en lugar de mejorarlo; se recomienda el uso de "zero-shot" con instrucciones claras.

Puede consultar más detalles sobre las técnicas base en nuestros artículos sobre Chain of Thought (CoT) y Fine-Tuning Strategies.

Fuentes