DeepSeek V3: El nuevo modelo chino que rivaliza con las IAs cerradas

DeepSeek-AI lanza DeepSeek-V3, un modelo mixture of experts con 671B de parámetros totales y 37B activos. Reporta un coste de entrenamiento de 5.5 millones de dólares, superando a Llama 3.1 405B en benchmarks de matemáticas y código.

Richard Barria

27 dic. 2024 — 3 min read

DeepSeek-AI ha publicado el reporte técnico y los pesos de DeepSeek-V3, su nuevo modelo de lenguaje a gran escala basado en una arquitectura Mixture-of-Experts (MoE). El modelo, entrenado con un corpus de 14.8 billones de tokens, destaca por optimizaciones arquitectónicas orientadas a la eficiencia de inferencia y reducción de costes de entrenamiento, utilizando un clúster de 2048 GPUs NVIDIA H800. A diferencia de iteraciones anteriores, V3 introduce una estrategia de balanceo de carga sin pérdidas auxiliares y validación de entrenamiento en precisión mixta FP8 a gran escala.

Especificaciones y Arquitectura

DeepSeek-V3 mantiene la arquitectura base de Transformer, integrando Multi-Head Latent Attention (MLA) para reducir el consumo de memoria del kv cache durante la inferencia y DeepSeekMoE para la gestión de expertos.

Característica	Especificación Técnica
Parámetros Totales	671 Billones
Parámetros Activos	37 Billones (por token)
Ventana de Contexto	128K tokens
Arquitectura	MoE (1 experto compartido + 256 expertos enrutados)
Entrenamiento	14.8T tokens
Coste Computacional	2.788M H800 GPU hours (~$5.576M USD)
Licencia	MIT (Código) / Model Agreement (Pesos)

Balanceo de carga sin pérdida auxiliar

Uno de los aportes técnicos centrales es la eliminación de la pérdida auxiliar (auxiliary loss) tradicionalmente utilizada en arquitecturas MoE para evitar el colapso del enrutamiento. En su lugar, DeepSeek-V3 introduce un término de sesgo dinámico $b_i$ para cada experto, que se ajusta durante el entrenamiento para asegurar una distribución equilibrada sin degradar el rendimiento del modelo principal.

La formulación para la selección de expertos se define como:

$$g'_{i,t} = \begin{cases} s_{i,t} & \text{si } s_{i,t} + b_i \in \text{Topk}(\{s_{j,t} + b_j | 1 \le j \le N_r\}, K_r) \\ 0 & \text{en otro caso} \end{cases}$$

Donde $s_{i,t}$ es la puntuación de afinidad token-experto y $b_i$ es el término de sesgo que se actualiza en función de la carga del experto.

Multi-Token Prediction (MTP)

El modelo implementa un objetivo de entrenamiento de predicción multi-token (MTP), similar a enfoques de ejecución especulativa, donde el modelo predice secuencialmente tokens adicionales en cada paso para densificar las señales de entrenamiento.

$$\mathcal{L}_{\text{MTP}} = \lambda \frac{1}{D} \sum_{k=1}^{D} \mathcal{L}_{\text{MTP}}^k$$

Esta técnica permite al modelo planificar representaciones futuras, mejorando el rendimiento en benchmarks de evaluación. Los módulos MTP pueden descartarse durante la inferencia estándar o utilizarse para aceleración mediante decodificación especulativa.

"Presentamos DeepSeek-V3, un modelo de lenguaje fuerte de Mezcla de Expertos (MoE) con 671B de parámetros totales y 37B activados para cada token. Para lograr una inferencia eficiente y un entrenamiento rentable, DeepSeek-V3 adopta las arquitecturas de Atención Latente Multi-cabeza (MLA) y DeepSeekMoE, que fueron validadas exhaustivamente en DeepSeek-V2. Además, DeepSeek-V3 es pionero en una estrategia libre de pérdida auxiliar para el equilibrio de carga y establece un objetivo de entrenamiento de predicción de múltiples tokens para un rendimiento más sólido."
— DeepSeek-V3 Technical Report, Abstract.

"A pesar de su excelente rendimiento, DeepSeek-V3 requiere solo 2.788M de horas de GPU H800 para su entrenamiento completo. Además, su proceso de entrenamiento es notablemente estable. A lo largo de todo el proceso de entrenamiento, no experimentamos picos de pérdida irrecuperables ni realizamos retrocesos (rollbacks)."
— DeepSeek-V3 Technical Report, Abstract.

Rendimiento y Benchmarks

Según el reporte técnico, DeepSeek-V3 supera a otros modelos de código abierto y compite directamente con modelos cerrados en tareas de razonamiento matemático y programación.

En matemáticas, el modelo alcanza un 90.2% en MATH-500, superando a GPT-4o (74.6%) y Claude-3.5-Sonnet (78.3%). En tareas de programación, obtiene un 40.5% en LiveCodeBench (CoT), posicionándose por encima de Llama 3.1 405B (28.4%).

En benchmarks de conocimiento general como MMLU, reporta un 88.5%, técnicamente empatado con Llama 3.1 405B (88.6%) y GPT-4o (87.2%).

Optimización de Entrenamiento FP8

El entrenamiento se realizó utilizando un marco de precisión mixta FP8 de grano fino. Para mitigar los errores de cuantización causados por valores atípicos (outliers) en activaciones y pesos, DeepSeek implementó una estrategia de cuantización por bloques (tile-wise y block-wise scaling).

Esto permitió reducir significativamente el consumo de memoria y aumentar la velocidad de computación, validando la viabilidad del entrenamiento en FP8 para modelos a escala de cientos de miles de millones de parámetros.

Para profundizar en las estrategias de reducción de precisión, consultar el análisis sobre post-training quantization.

Disponibilidad y Contexto

DeepSeek-V3 se posiciona como el actual estado del arte (SOTA) en modelos de pesos abiertos, desafiando la necesidad de arquitecturas densas masivas como la de Llama 3.1 405B. Su eficiencia en inferencia, derivada de la arquitectura MoE (analizada en detalle en nuestro artículo sobre Sparse Activation y Routing), permite su despliegue en hardware con menor ancho de banda de memoria comparado con modelos densos equivalentes.

Además, el modelo incorpora capacidades de razonamiento destiladas de la serie DeepSeek-R1, mejorando su desempeño en cadenas de pensamiento (Chain of Thought) sin sacrificar la longitud de generación ni el estilo de respuesta.

Los pesos del modelo están disponibles en HuggingFace bajo una licencia que permite uso comercial, y el código de entrenamiento e inferencia se ha liberado bajo licencia MIT.