AI2 Lanza OLMo 2 1B: Modelo Compacto de IA de Código Abierto

El instituto AI2 presenta Olmo 2 1B, un modelo IA de 1B parámetros bajo licencia Apache 2.0. Destaca por superar a modelos de tamaño similar de competidores como Google, Meta y Alibaba.

AI2 Lanza OLMo 2 1B: Modelo Compacto de IA de Código Abierto

El Allen Institute for AI (Ai2) ha anunciado la disponibilidad inmediata de OLMo 2 1B, el modelo más compacto de su nueva generación de large language models (LLMs). Este lanzamiento cierra la familia OLMo 2 (que ya incluía variantes de 7B y 13B), posicionándose como una alternativa diseñada para la investigación científica y la inferencia en dispositivos locales. A diferencia de los modelos de "pesos abiertos" (open weights) como Llama o Gemma, OLMo 2 se distribuye como un proyecto "totalmente abierto", liberando el dataset de pre-entrenamiento completo, el código de entrenamiento, los logs de métricas y los checkpoints intermedios bajo la licencia Apache 2.0.

Especificaciones y Arquitectura

OLMo 2 1B es un modelo transformer de tipo decoder-only con aproximadamente mil millones de parámetros. Su arquitectura introduce modificaciones específicas respecto a la versión anterior para mejorar la estabilidad durante el entrenamiento, incluyendo la eliminación de sesgos (biases), el uso de swiglu como función de activación y RMSNorm aplicado tanto a las entradas como a las salidas de los bloques de atención (QK-Norm).

El modelo fue entrenado en dos fases distintas. La primera etapa consumió 4 billones de tokens provenientes del dataset OLMo-mix-1124. Posteriormente, se aplicó una etapa de "mid-training" o recocido (annealing) con 50 mil millones de tokens adicionales de alta calidad (Dolmino-mix-1124), enfocados en razonamiento matemático y código.

Para profundizar en los fundamentos de estas arquitecturas, puedes consultar nuestro análisis sobre Transformer Architecture: Análisis Comparativo de Encoder y Decoder Stacks.

Ficha Técnica: OLMo 2 1B

CaracterísticaDetalle
Parámetros~1 Billón (1B)
ArquitecturaDecoder-only Transformer, RoPE, RMSNorm, QK-Norm
Context Window4096 tokens
Datos de Entrenamiento4T tokens (Pre-train) + 50B (Annealing)
LicenciaApache 2.0 (Código, Pesos, Datos, Logs)
Post-trainingSFT + DPO + GRPO (RLVR)

En términos de rendimiento, Ai2 reporta que OLMo 2 1B supera en el promedio de benchmarks académicos a competidores directos de tamaño similar o superior. Según los datos publicados en el reporte técnico y el model card, el modelo alcanza una puntuación promedio de 42.7, superando a Gemma 3 1B (38.3), Llama 3.2 1B (39.3) y Qwen 2.5 1.5B (41.7). Destaca particularmente en tareas de razonamiento matemático (GSM8K) con un score de 68.3, significativamente superior al 45.4 de Llama 3.2 1B.

Metodología de Entrenamiento y Apertura

El desarrollo de OLMo 2 se centra en la reproducibilidad científica. El equipo de Ai2 ha publicado el "recipe" completo, permitiendo auditar no solo el resultado final, sino la dinámica de aprendizaje del modelo.

"OLMo 2 incluye una familia de modelos de lenguaje autorregresivos densos [...] con artefactos totalmente liberados: pesos del modelo, datos de entrenamiento completos, código de entrenamiento y recetas, registros de entrenamiento y miles de checkpoints intermedios. En este trabajo, describimos nuestra arquitectura de modelo modificada y la receta de entrenamiento, centrándonos en técnicas para lograr una mejor estabilidad de entrenamiento y una eficiencia por token mejorada."

Walsh et al., "2 OLMo 2 Furious", Abstract. arXiv:2501.00656

La estrategia de post-entrenamiento incorpora técnicas avanzadas alineadas con el proyecto Tülu 3. El modelo instructivo (OLMo 2 1B Instruct) fue sometido a supervised fine-tuning (SFT), seguido de optimización de preferencias (DPO) y una etapa final de aprendizaje por refuerzo. Específicamente, para la versión 1B, se utilizó GRPO como algoritmo para implementar recompensas verificables en dominios como matemáticas y codificación.

Para comprender mejor este último paso en el pipeline, se recomienda la lectura de RLVR: Optimización de Modelos de Lenguaje mediante Recompensas Verificables.

"Finalmente, incorporamos las mejores prácticas de Tülu 3 para desarrollar OLMo 2-Instruct, centrándonos en datos permisivos y extendiendo nuestra etapa final de aprendizaje por refuerzo con recompensas verificables (RLVR). Nuestros modelos base OLMo 2 se sitúan en la frontera de Pareto de rendimiento respecto al cómputo de entrenamiento, a menudo igualando o superando a modelos de solo pesos abiertos."

Walsh et al., "2 OLMo 2 Furious", Abstract. arXiv:2501.00656

Disponibilidad y Recursos

El modelo ya se encuentra disponible para descarga y uso. Los investigadores y desarrolladores pueden acceder a los pesos, así como a los datasets OLMo-mix-1124 y Dolmino-mix-1124, directamente en Hugging Face. Debido a su tamaño reducido, el modelo es viable para ejecución en hardware de consumo y dispositivos de borde, facilitando la iteración rápida en experimentos de inference.

Fuentes: