Clarifai lanza motor de razonamiento

Clarifai presenta un nuevo motor de inferencia optimizado para cargas de trabajo de razonamiento. Benchmarks independientes en GPT-OSS 120B reportan un throughput de 544 tokens/s y costos de $0.16 por millón de tokens mediante optimización de software en GPUs estándar.

Clarifai lanza motor de razonamiento

La plataforma de inteligencia artificial Clarifai anunció el lanzamiento de Clarifai Reasoning Engine, una solución de inferencia diseñada específicamente para soportar las demandas computacionales de los modelos de razonamiento y la IA agentiva. El sistema se centra en la optimización del software para maximizar el rendimiento del hardware existente, logrando resultados competitivos frente a aceleradores especializados.

De acuerdo con la verificación realizada por la firma independiente Artificial Analysis, el motor estableció nuevos récords de rendimiento ejecutando el modelo GPT-OSS 120B en GPUs estándar.

Especificaciones y rendimiento reportado

El motor implementa una serie de optimizaciones técnicas que abarcan desde el nivel de hardware hasta los algoritmos de decodificación. Los datos técnicos verificados por Artificial Analysis sobre el modelo GPT-OSS 120B incluyen:

  • Throughput: 544 tokens por segundo, posicionándose como la implementación basada en GPU más rápida registrada en este benchmark.
  • Time-to-first-token (TTFT): 0.3 segundos, lo que indica una latencia de respuesta casi instantánea.
  • Costo: $0.16 por millón de tokens (blended), reportado como el costo más bajo en la industria para este nivel de rendimiento.
  • Tecnología: Uso de kernels cuda personalizados y técnicas avanzadas de speculative decoding.

Matthew Zeiler, CEO de Clarifai, detalló en el comunicado oficial la naturaleza técnica de estas mejoras:

"Se trata de una variedad de tipos de optimizaciones diferentes, desde los kernels CUDA hasta técnicas avanzadas de decodificación especulativa. Básicamente, se obtiene más rendimiento de las mismas tarjetas gráficas."
"La IA agentiva y las cargas de trabajo de razonamiento consumen tokens rápidamente. Requieren un alto throughput, baja latencia y precios bajos para impulsar casos de uso viables para los clientes. Con el Clarifai Reasoning Engine, los desarrolladores pueden desbloquear una nueva era de velocidad y capacidad de respuesta."

Enfoque en software sobre infraestructura

El lanzamiento se produce en un contexto donde la industria enfrenta una alta demanda de infraestructura de cómputo, impulsada por el auge de los modelos agenticos que requieren múltiples pasos de razonamiento (multi-step reasoning) para completar una sola instrucción.

A diferencia de estrategias centradas exclusivamente en la adquisición masiva de hardware, Clarifai apuesta por la orquestación de cómputo y la eficiencia algorítmica. Según la empresa, este enfoque permite que los modelos se ejecuten el doble de rápido y con una reducción del 40% en los costos operativos en comparación con implementaciones estándar.

Los resultados de los benchmarks sugieren que la optimización profunda del stack de software puede permitir que las GPUs de propósito general igualen o superen el rendimiento de chips ASIC especializados en tareas de inferencia de llms.

Disponibilidad

Clarifai ha confirmado que estas optimizaciones no se limitan a modelos propietarios o específicos como GPT-OSS 120B. La arquitectura permite a los clientes traer sus propios modelos de razonamiento para ejecutarlos bajo la misma infraestructura optimizada, beneficiándose de la economía de escala y velocidad del nuevo motor.

Fuentes: