Zhipu AI presenta GLM-4.7: mejoras en coding, agentes y modos de razonamiento continuo

Zhipu AI (z.ai) introduce GLM-4.7, reportando un 73.8% en SWE-bench Verified y un 41.0% en Terminal Bench 2.0. El modelo integra "Preserved Thinking" para mantener el contexto de razonamiento en agentes de codificación y ofrece soporte nativo para despliegue local con vLLM.

Zhipu AI presenta GLM-4.7: mejoras en coding, agentes y modos de razonamiento continuo

Zhipu AI (Z.ai) anunció el 22 de diciembre de 2025 el lanzamiento de GLM-4.7, una nueva iteración en su serie de modelos de lenguaje enfocada en optimizar tareas de ingeniería de software, uso de herramientas y razonamiento complejo. Esta versión introduce capacidades arquitectónicas diseñadas para gestionar el flujo de pensamiento en interacciones largas, superando a su predecesor GLM-4.6 en evaluaciones estandarizadas de código y navegación web.

Rendimiento y especificaciones técnicas

El modelo presenta avances cuantificables en la generación de código y la manipulación de entornos de terminal. Según la documentación oficial, GLM-4.7 ha sido optimizado para funcionar como backend de agentes autónomos en frameworks como Claude Code o Roo Code.

Los resultados reportados en los principales benchmarks de la industria son:

  • SWE-bench Verified: 73.8% (+5.8% respecto a GLM-4.6).
  • SWE-bench Multilingual: 66.7% (+12.9% respecto a GLM-4.6).
  • Terminal Bench 2.0: 41.0% (+16.5% respecto a GLM-4.6).
  • Humanity’s Last Exam (HLE) con herramientas: 42.8% (+12.4% respecto a GLM-4.6).

Para el despliegue e inferencia, los pesos del modelo están disponibles públicamente. Zhipu AI proporciona soporte oficial para motores de alta eficiencia:

  • Frameworks: Soporte nativo en vllm y SGLang (ramas principales).
  • Cuantización: Disponibilidad de versiones FP8 para optimizar el throughput en hardware local.
  • Disponibilidad: API a través de la plataforma Z.ai, OpenRouter y descarga de pesos en Hugging Face y ModelScope.

El equipo de ingeniería de Zhipu AI detalla en su publicación técnica la implementación de nuevos modos de razonamiento. Estos mecanismos buscan resolver la inconsistencia en tareas de múltiples pasos, permitiendo al modelo "pensar" antes de actuar y, crucialmente, recordar ese proceso de pensamiento en turnos posteriores.

"GLM-4.7 mejora aún más el 'Interleaved Thinking' (una característica introducida desde GLM-4.5) e introduce el 'Preserved Thinking' y el 'Turn-level Thinking'. Al pensar entre acciones y mantenerse consistente a través de los turnos, hace que las tareas complejas sean más estables y controlables:Interleaved Thinking: El modelo piensa antes de cada respuesta y llamada a herramienta, mejorando el seguimiento de instrucciones y la calidad de la generación.Preserved Thinking: En escenarios de agentes de codificación, el modelo retiene automáticamente todos los bloques de pensamiento a través de conversaciones de múltiples turnos, reutilizando el razonamiento existente en lugar de volver a derivarlo desde cero. Esto reduce la pérdida de información e inconsistencias, y es adecuado para tareas complejas de horizonte largo."

Fuente: Blog técnico de GLM-4.7, sección "Getting started with GLM-4.7"

Evolución de la arquitectura GLM

GLM-4.7 se construye sobre la base establecida por la serie GLM-4.5, cuya arquitectura se basa en un diseño mixture-of-experts (MoE). Según el reporte técnico previo de GLM-4.5, esta familia de modelos utiliza enrutamiento de balance sin pérdidas y puertas sigmoides, con un total de parámetros que rondaba los 355 mil millones (32 mil millones activados) en la versión anterior.

La introducción de Preserved Thinking alinea a GLM-4.7 con la tendencia actual de modelos de razonamiento o chain-of-thought (como la serie o1 de OpenAI o DeepSeek R1), pero con un enfoque específico en la persistencia. En flujos de trabajo de desarrollo de software, donde un agente debe editar múltiples archivos iterativamente, la capacidad de mantener el "hilo mental" de por qué se tomó una decisión arquitectónica en un turno anterior reduce errores de regresión y bucles redundantes.

La compatibilidad oficial con contenedores Docker para vLLM y SGLang, junto con configuraciones específicas para activar el modo de pensamiento ("enable_thinking": true), facilita la integración de este modelo en infraestructuras de MLOps privadas, permitiendo ejecutar capacidades de agentes de codificación avanzados sin dependencia exclusiva de APIs propietarias cerradas.

Referencias