Grok 3: El nuevo titán de xAI

xAI lanza Grok 3, un modelo de IA entrenado con 200,000 GPUs que promete revolucionar el campo con sus capacidades de razonamiento avanzadas. Un nuevo competidor que desafía a GPT-4 y Gemini con funciones únicas.

Grok 3: El nuevo titán de xAI

xAI anunció este lunes el lanzamiento de Grok 3, su nueva familia de modelos de inteligencia artificial, junto con una versión optimizada denominada Grok 3 mini. Desarrollados en el clúster de supercomputación de Memphis, estos modelos integran capacidades de razonamiento dedicado y una ventana de contexto de un millón de tokens, posicionándose para competir directamente con las arquitecturas de razonamiento de OpenAI y DeepSeek.

Arquitectura de razonamiento y entrenamiento a escala

El desarrollo de Grok 3 se ha llevado a cabo en el centro de datos de xAI, utilizando aproximadamente 200,000 GPUs, lo que representa un aumento de potencia de cómputo de 10x respecto a la generación anterior, Grok 2. La característica central de este lanzamiento es la introducción de Grok 3 (Think), una modalidad que utiliza tiempo de cómputo durante la inferencia para verificar y refinar sus respuestas.

Esta capacidad se alinea con las técnicas de Chain of Thought (CoT), permitiendo al modelo dedicar desde segundos hasta minutos para procesar consultas complejas. El entrenamiento de estas capacidades se basó en aprendizaje por refuerzo a gran escala, un enfoque similar al discutido en la transición hacia RLVR y recompensas verificables para tareas de lógica y matemáticas.

Según la documentación técnica liberada por xAI sobre el proceso de inferencia:

"Con RL [Aprendizaje por Refuerzo], Grok 3 (Think) aprendió a refinar sus estrategias de resolución de problemas, corregir errores mediante retroceso (backtracking), simplificar pasos y utilizar el conocimiento adquirido durante el preentrenamiento. Al igual que un humano cuando aborda un problema complejo, Grok 3 (Think) puede pasar desde unos pocos segundos hasta varios minutos razonando, a menudo considerando múltiples enfoques."

Rendimiento y Benchmarks

xAI ha reportado resultados en benchmarks académicos estándar, destacando su desempeño en matemáticas y codificación. En el benchmark AIME 2025 (American Invitational Mathematics Examination), publicado recientemente, el modelo alcanzó un 93.3% utilizando computación de tiempo de prueba extendida (cons@64).

Comparativa de rendimiento reportada por xAI en modelos sin razonamiento activado:

BenchmarkGrok 3 BetaGrok 3 mini BetaGPT-4oClaude 3.5 Sonnet
GPQA (Ciencia nivel posgrado)75.4%66.2%53.6%65.0%
MMLU-pro (Conocimiento general)79.9%78.9%72.6%78.0%
AIME’24 (Matemáticas)52.2%39.7%9.3%16.0%
LCB (Generación de código)57.0%41.5%32.3%40.2%
LOFT 128k (RAG contexto largo)83.3%83.1%78.0%69.9%

Fuente de datos: xAI Blog.

DeepSearch y Agentes Autónomos

Junto con el modelo base, xAI introdujo DeepSearch, una herramienta que opera bajo la arquitectura de agentes autónomos y uso de herramientas. DeepSearch tiene capacidad para escanear internet y la red social X, analizar información contradictoria y generar resúmenes técnicos o de noticias en tiempo real.

"Para entender el universo, debemos interconectar a Grok con el mundo. Equipados con intérpretes de código y acceso a internet, los modelos Grok 3 aprenden a consultar el contexto faltante, ajustar dinámicamente su enfoque y mejorar su razonamiento basado en la retroalimentación."

Esta funcionalidad se apoya en una ventana de contexto ampliada de 1 millón de tokens, lo que facilita la ingesta de grandes volúmenes de documentos para tareas de RAG (Retrieval-Augmented Generation) y análisis de datos.

Disponibilidad y Acceso API

El despliegue de Grok 3 se realiza en fases:

  • Usuarios finales: Disponible inmediatamente para suscriptores de X Premium y Premium+. Los usuarios de Premium+ tendrán acceso prioritario a las funciones de razonamiento (Think) y DeepSearch.
  • SuperGrok: Se menciona una nueva capa de servicio llamada "SuperGrok", con un costo estimado de $30 mensuales, que eliminaría límites en consultas de razonamiento y generación de imágenes.
  • Desarrolladores: La API de xAI lanzará los endpoints para Grok 3 y Grok 3 mini en las próximas semanas, incluyendo soporte para function calling y ejecución de código.

Adicionalmente, Elon Musk confirmó que xAI planea liberar el código fuente de Grok 2 una vez que Grok 3 alcance un estado de estabilidad y madurez en los próximos meses.

Enlaces de interés