LM Arena levanta USD 100M

El proyecto de benchmarking colaborativo, clave para medir el rendimiento de los modelos de IA más avanzados, alcanzó una valoración de USD 600 millones tras su ronda semilla.

LM Arena levanta USD 100M

LMArena, la organización derivada del proyecto de investigación académico Chatbot Arena de la Universidad de California en Berkeley, ha anunciado la recaudación de 100 millones de dólares en una ronda de financiación semilla. La operación fue codirigida por la firma de capital de riesgo Andreessen Horowitz (a16z) y UC Investments, el fondo que gestiona las inversiones de la Universidad de California. Esta ronda otorga a la recién formada compañía una valoración de 600 millones de dólares, marcando su transición oficial de proyecto académico a entidad comercial.

Datos técnicos y corporativos

  • Entidad: LMArena (anteriormente conocida bajo la iniciativa de investigación LMSYS).
  • Fundadores: Ion Stoica (Presidente), Anastasios Angelopoulos (CEO) y Wei-Lin Chiang (CTO).
  • Valoración: 600 millones de dólares (Post-money).
  • Inversores: Andreessen Horowitz (a16z), UC Investments, Lightspeed Venture Partners, Felicis Ventures, Kleiner Perkins.
  • Métricas de la plataforma:
    • Más de 3 millones de votos emitidos por usuarios.
    • Más de 400 modelos de IA evaluados.
    • 1 millón de visitantes mensuales reportados durante su etapa académica.
  • Propósito del capital:
    • Expansión del equipo de ingeniería e investigación.
    • Cobertura de costos de cómputo para la ejecución de modelos en la plataforma ( inference ).
    • Desarrollo de nuevas funcionalidades y diversificación de la base de usuarios votantes.

Declaraciones de la dirección

Ion Stoica, cofundador de LMArena y profesor en UC Berkeley, señaló la creciente necesidad de sistemas de evaluación robustos en el contexto actual del desarrollo de modelos.

"La realidad es que ha superado la etapa de proyecto académico. Necesitamos construir una organización que pueda tomar esta plataforma, apoyarla y hacerla crecer para que soporte aún mejor a la comunidad, refleje las preferencias de las personas y ayude al ecosistema a aprender de estas preferencias humanas para construir modelos grandes y fiables."

— Anastasios Angelopoulos, CEO de LMArena, en declaraciones a Bloomberg.

El proyecto original, Chatbot Arena, fue creado a principios de 2023 por el Sky Computing Lab de UC Berkeley tras el lanzamiento de ChatGPT. Se estableció rápidamente como un benchmark de referencia al utilizar un sistema de clasificación Elo basado en comparaciones ciegas (side-by-side) donde los usuarios votan por la mejor respuesta entre dos modelos anónimos.

A diferencia de los benchmarks estáticos como MMLU o HumanEval, que evalúan capacidades específicas sobre datasets fijos, el enfoque de LMArena se centra en la preferencia humana en escenarios del mundo real ("in the wild"). Empresas como Google, OpenAI, Anthropic y xAI utilizan la plataforma para testear modelos, a veces antes de su lanzamiento general, como ocurrió con GPT-4o.

La transición a una estructura corporativa responde a la necesidad de sostener los costos operativos, que alcanzaban millones de dólares anuales incluso como proyecto de investigación, principalmente debido al cómputo necesario para servir los modelos.

Implicaciones técnicas

La formalización de LMArena como empresa independiente busca mitigar las preocupaciones sobre la saturación de los benchmarks actuales ("contamination") y la dificultad de verificar las afirmaciones de rendimiento de los laboratorios de IA.

  • Estandarización de la evaluación: La inversión valida el modelo de "Crowdsourced Evaluation" como un pilar fundamental para medir la fiabilidad de los LLM, complementando las métricas automatizadas.
  • Neutralidad: A pesar de recibir financiación de inversores con participaciones en otras empresas de IA, LMArena mantiene su enfoque en construir una plataforma neutral y abierta.
  • Infraestructura: El capital permitirá escalar la infraestructura para soportar modelos más grandes y complejos, facilitando comparaciones más rápidas y detalladas para la comunidad open source y propietaria.

Fuentes