Liquid AI publica LFM2.5-1.2B-Thinking: modelo híbrido de razonamiento para ejecución local
Liquid AI presenta LFM2.5, un modelo híbrido de 1.17B parámetros optimizado para inferencia local. Genera trazas de pensamiento, opera con 900 MB de RAM y supera a Qwen3-1.7B en benchmarks matemáticos.
Liquid AI ha anunciado la disponibilidad inmediata de LFM2.5-1.2B-Thinking, una nueva iteración de su familia de modelos fundacionales híbridos. Este modelo, con un conteo exacto de 1.170 millones de parámetros, introduce capacidades de razonamiento estructurado (thinking traces) optimizadas para la ejecución local en dispositivos de consumo, como smartphones y ordenadores portátiles, sin depender de la nube.
Today we release LFM2.5-1.2B-Thinking, a reasoning model that runs entirely on-device. What needed a data center two years ago now runs on any phone with 900 MB of memory.
— Liquid AI (@liquidai) January 20, 2026
> Trained specifically for concise reasoning
> Generates internal thinking traces before producing answers… pic.twitter.com/dYrwBDefVP
Especificaciones y Arquitectura Híbrida
LFM2.5 se construye sobre la arquitectura presentada en la generación anterior (LFM2), diferenciándose de los transformers convencionales al utilizar un diseño híbrido. El sistema combina bloques de convolución lineal con compuertas (LIV) para el procesamiento de contexto local y mecanismos de atención para el contexto global. Esta estructura permite mantener el consumo de memoria por debajo de 1 GB durante la inferencia.
Las características técnicas principales incluyen:
- Arquitectura: Híbrida de 16 capas (10 bloques de convolución LIV de doble puerta y 6 bloques de atención GQA).
- Volumen de entrenamiento: 28 billones (trillion) de tokens, una expansión significativa respecto a los 10T de la versión anterior.
- Ventana de contexto: 32.768 tokens.
- Gestión de memoria: Requiere aproximadamente 900 MB de RAM para operar.
- Hardware soportado: Optimizado para CPUs AMD, Qualcomm Snapdragon y Apple Silicon (vía framework MLX).
El rendimiento reportado por Liquid AI posiciona a este modelo por encima de alternativas de mayor tamaño en tareas específicas. En el benchmark MATH-500, LFM2.5 obtiene un 87.96%, superando al modelo Qwen3-1.7B en modo thinking (81.92%). En evaluación de seguimiento de instrucciones (IFEval), alcanza un 88.42%.
| Benchmark | LFM2.5-1.2B-Thinking | Qwen3-1.7B (Thinking) | Gemma 3 1B IT |
|---|---|---|---|
| MATH-500 | 87.96% | 81.92% | 45.20% |
| GSM8K | 85.60% | 85.60% | 42.15% |
| IFEval | 88.42% | 71.65% | 63.25% |
| MMLU-Pro | 49.65% | 56.68% | 14.04% |
El modelo ha sido sometido a un proceso de alineación mediante aprendizaje por refuerzo, similar a las estrategias analizadas en Fine-Tuning Strategies: SFT y Low-Rank Adaptation (LoRA) en LLMs, para mejorar su capacidad de generar cadenas de pensamiento coherentes antes de emitir una respuesta final.
Fundamentos del diseño Edge-First
El diseño de la familia LFM se basa en una búsqueda de arquitectura optimizada específicamente para latencia y memoria en el borde. El reporte técnico de la versión base (LFM2) describe la metodología utilizada para lograr eficiencia sin sacrificar capacidades críticas de recuperación de información.
"Buscamos modelos que lideren en calidad, velocidad y eficiencia de memoria en CPUs y NPUs heterogéneas, manteniendo al mismo tiempo la practicidad para pre-entrenar, post-entrenar y desplegar ampliamente [...]
Utilizando una búsqueda de arquitectura con hardware-in-the-loop bajo restricciones de latencia y memoria en el borde, obtenemos un backbone híbrido compacto que combina convoluciones cortas con compuertas con un pequeño número de bloques de atención de consulta agrupada (GQA), entregando hasta 2 veces más velocidad en pre-fill y decodificación en CPUs comparado con modelos de tamaño similar."
— Liquid AI. (2025). LFM2 Technical Report. arXiv:2511.23404, p. 1.
Disponibilidad y despliegue
Liquid AI ha liberado los pesos del modelo bajo la licencia LFM 1.0. Para facilitar su adopción, se han publicado versiones cuantizadas y optimizadas para diferentes entornos de ejecución:
- GGUF: Para ejecución en
llama.cpp(CPU). - ONNX: Para compatibilidad multiplataforma y aceleración en web/móvil.
- MLX: Formato nativo para Apple Silicon.
El modelo alcanza velocidades de decodificación de hasta 239 tokens por segundo en CPUs AMD Ryzen AI de gama alta y 82 tokens por segundo en dispositivos móviles con Snapdragon 8 Gen 4. Aunque el modelo incluye capacidades de "tool use", los desarrolladores señalan que no está recomendado para tareas intensivas de conocimiento general o programación compleja, sugiriendo su uso principal para razonamiento agéntico, extracción de datos y RAG.