EleutherAI publica el mayor conjunto de texto con licencia para entrenar modelos de IA

EleutherAI presentó Common Pile v0.1, un dataset de 8 TB creado junto a startups y universidades, con el que busca demostrar que los modelos pueden alcanzar alto rendimiento sin usar datos con derechos de autor.

EleutherAI publica el mayor conjunto de texto con licencia para entrenar modelos de IA

Mozilla y EleutherAI, en colaboración con un consorcio de 30 investigadores y organizaciones como Hugging Face, Cohere For AI y Creative Commons, han publicado el informe "Towards Best Practices for Open Datasets for LLM Training". El documento establece un marco técnico y legal para la creación de conjuntos de datos de entrenamiento abiertos, respondiendo a la creciente opacidad en la industria generativa. Como parte de la publicación, se han revelado los detalles de composición y procesamiento de Common Pile, el dataset de dominio público diseñado por EleutherAI.

El trabajo, apoyado por instituciones como NSERC de Canadá y Livermore Computing, aborda los desafíos técnicos de recopilar datos a escala de terabytes sin infringir derechos de autor, proponiendo estándares para la gestión de metadatos, gobernanza y licencias.

Composición técnica de Common Pile

El informe detalla la arquitectura de Common Pile, concebido como un dataset "por defecto" para la comparabilidad de modelos, compuesto exclusivamente por datos de dominio público o licencias permisivas. Según el apéndice técnico del documento, sus componentes principales incluyen:

  • Código (The Stack v2): Subconjunto filtrado del dataset de BigCode, que abarca 619 lenguajes de programación, alineado con licencias permisivas.
  • Textos Académicos:
    • ArXiv: Procesamiento de fuentes LaTeX convertidas a texto plano. Solo incluye papers con licencias permitidas (aproximadamente el 15% del total del repositorio).
    • PubMed Central & BioDiversity Heritage Library: Artículos biomédicos y de ciencias de la vida con licencias abiertas verificadas.
  • Libros de Dominio Público:
    • Pre-1929: Digitalización de libros cuyos derechos han expirado en EE. UU.
    • Post-1929 (No renovados): Uso de un llm para procesar registros de la Oficina de Copyright de EE. UU. y determinar qué libros publicados entre 1929 y 1964 no renovaron sus derechos, identificando aproximadamente 500.000 títulos potenciales.
  • Datos Gubernamentales: Inclusión masiva de documentos de dominio público de EE. UU., incluyendo todo el registro de patentes (USPTO), opiniones legales (CourtListener) y documentos de la Oficina de Publicaciones del Gobierno (GPO).
  • Transcripciones de YouTube: Uso del modelo Whisper para generar transcripciones de alta calidad de videos licenciados bajo Creative Commons, superando la calidad de las transcripciones automáticas de la plataforma.
  • Filtrado Web: Procesamiento de 52 volcados de Common Crawl, limitando la extracción estrictamente a páginas con identificadores de licencia Creative Commons en su HTML.

Principios de curaduría y transparencia

El documento subraya la dificultad de obtener metadatos fiables en la "web salvaje" y propone siete principios rectores, incluyendo la reproducibilidad total del pipeline de datos y la implementación de señales de preferencia (opt-outs) legibles por máquina. A continuación, se presentan extractos literales del reporte que definen la problemática actual y la metodología adoptada:

"Mientras que esto [la opacidad] podría mitigarse entrenando modelos de lenguaje con datos de acceso abierto y de dominio público, en el momento de escribir este informe, no existen tales modelos (entrenados a una escala significativa) debido a los sustanciales desafíos técnicos y sociológicos para reunir el corpus necesario. Estos desafíos incluyen metadatos incompletos y poco fiables, el coste y la complejidad de digitalizar registros físicos, y el conjunto diverso de habilidades legales y técnicas requeridas para asegurar la relevancia y la responsabilidad en un paisaje que cambia rápidamente."

Respecto a la metodología de limpieza y selección de datos en Common Pile:

"Common Pile fue curado para tener una mayor proporción de contenido que se sabe que correlaciona altamente con el rendimiento del modelo [...] Desde el lanzamiento de The Pile en 2020, EleutherAI ganó una experiencia significativa en el entrenamiento de modelos, incluyendo cómo formatear mejor los datos para ello. [...] Common Pile ahora incluye un subconjunto de código aún más grande, ya que la investigación ha demostrado que una mayor proporción de código se correlaciona con un mejor rendimiento." [Fuente: Towards Best Practices for Open Datasets, Appendix A]

Estado de los datos abiertos

La publicación surge en un contexto donde empresas como OpenAI y Google han dejado de revelar las fuentes de sus datos de entrenamiento, citando ventajas competitivas y riesgos legales. Investigaciones previas sugieren que el uso de datos sintéticos o de baja calidad puede degradar el rendimiento de los modelos, lo que hace crítica la disponibilidad de texto humano de alta calidad y legalmente seguro.

El consorcio destaca que la falta de estándares ha llevado a una "crisis de consentimiento", donde los creadores bloquean crawlers indiscriminadamente. Las nuevas prácticas recomiendan adoptar estándares como SPDX para identificadores de licencias y protocolos como el ISCC (International Standard Content Code) para mejorar la trazabilidad.

El documento completo y los detalles técnicos de los pipelines de procesamiento están disponibles para su revisión pública, buscando establecer una base para futuras auditorías de modelos de IA.

Fuentes: