DeepSeek-OCR propone un nuevo paradigma para comprimir texto con visión artificial

El laboratorio DeepSeek-AI presentó “DeepSeek-OCR”, un modelo que utiliza compresión óptica para reducir hasta veinte veces la cantidad de tokens necesarios en tareas de lectura de documentos.

DeepSeek-OCR propone un nuevo paradigma para comprimir texto con visión artificial

DeepSeek-AI publica DeepSeek-OCR: compresión óptica de contexto y arquitectura eficiente

DeepSeek-AI presenta un modelo end-to-end que logra un 97% de precisión con una compresión de tokens 10x. Integra la arquitectura DeepEncoder y un decodificador MoE, superando a MinerU con menos recursos visuales.

DeepSeek-AI ha liberado DeepSeek-OCR, un modelo multimodal diseñado para investigar la viabilidad de la compresión de contextos largos mediante mapeo óptico 2D. El sistema propone una arquitectura unificada que reduce significativamente la cantidad de tokens visuales necesarios para procesar documentos densos. Junto al paper técnico, se han publicado los pesos del modelo y el código de inferencia, destacando su integración inmediata con librerías de aceleración como vLLM.

Arquitectura y especificaciones

El modelo se compone de dos módulos principales: el DeepEncoder y un decodificador basado en DeepSeek3B-MoE.

El DeepEncoder (aprox. 380M parámetros) actúa como el motor central. Su diseño conecta en serie un codificador SAM-base (enfocad en atención local o ventana) y un CLIP-large (atención global), unidos mediante un compresor convolucional de 16x. Esta estructura busca mantener bajas activaciones de memoria incluso con entradas de alta resolución.

Por su parte, el decodificador utiliza una arquitectura mixture of experts (MoE) con 3 mil millones de parámetros totales, de los cuales solo 570 millones están activos durante la inference.

Capacidades y rendimiento reportado:

  • Precisión: 97% de precisión en decodificación ocr con una tasa de compresión de texto/visión < 10x.
  • Compresión extrema: Mantiene un 60% de precisión con una tasa de compresión de 20x.
  • Velocidad: ~2500 tokens/s en una GPU A100-40G utilizando vLLM (v0.8.5).
  • Benchmark: En OmniDocBench, supera a GOT-OCR2.0 (256 tokens/página) utilizando solo 100 tokens visuales, y a MinerU2.0 utilizando menos de 800 tokens (modo Gundam).

DeepSeek-OCR implementa un sistema de resolución dinámica para adaptarse a diferentes densidades de información:

Modo Resolución Tokens Visuales Caso de uso
Tiny 512x512 64 Texto escaso
Small 640x640 100 Documentos estándar
Base 1024x1024 256 Documentos densos
Large 1280x1280 400 Papers, reportes
Gundam Dinámica n×100 + 256 Periódicos, maquetación compleja

Compresión óptica como medio de almacenamiento

El paper "DeepSeek-OCR: Contexts Optical Compression" plantea la hipótesis de que la modalidad visual puede ser un medio de compresión más eficiente que el texto digital para contextos largos en llms. Los autores explican en el documento:

"Específicamente, DeepEncoder sirve como el motor central, diseñado para mantener bajas activaciones bajo entradas de alta resolución mientras logra altos ratios de compresión para asegurar un número óptimo y manejable de tokens de visión. Los experimentos muestran que cuando el número de tokens de texto está dentro de 10 veces el de los tokens de visión (es decir, una tasa de compresión < 10 ×), el modelo puede lograr una precisión de decodificación (OCR) del 97%."

Respecto a la degradación de la información en compresiones altas, el estudio señala:

"Incluso con una tasa de compresión de 20 ×, la precisión del OCR se mantiene en alrededor del 60%. Esto muestra una promesa considerable para áreas de investigación como la compresión de contextos históricos largos y mecanismos de olvido de memoria en LLMs."

Debate sobre la entrada de "solo píxeles"

La publicación del modelo ha reavivado la discusión sobre la arquitectura de entrada en los modelos de lenguaje. Andrej Karpathy, exdirector de IA en Tesla y cofundador de OpenAI, analizó el paper sugiriendo que valida la transición hacia modelos que consuman exclusivamente imágenes, eliminando la necesidad de tokenizadores de texto tradicionales.

Karpathy argumenta que los tokenizadores actuales introducen complejidad innecesaria (codificaciones Unicode, riesgos de seguridad) y rompen la representación visual natural de los caracteres. Según su análisis, renderizar texto y alimentarlo como imagen permitiría:

  1. Mayor compresión de información (ventanas de contexto más cortas).
  2. Flujos de información más generales (texto enriquecido, diagramas).
  3. Procesamiento con atención bidireccional nativa.

Implementación y uso

El modelo está disponible bajo licencia MIT y soporta inferencia directa mediante Hugging Face Transformers y vLLM. No incluye fine-tuning supervisado para chat, por lo que su función principal es el parseo de documentos y la generación de datos sintéticos.

Ejemplo de implementación básica con transformers:

from transformers import AutoModel, AutoTokenizer
import torch

model_name = 'deepseek-ai/DeepSeek-OCR'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True).cuda().to(torch.bfloat16)

# Prompt para salida en markdown con coordenadas
prompt = "<image>\n<|grounding|>Convert the document to markdown."
image_file = 'documento.jpg'

# Inferencia en modo dinámico (Gundam)
res = model.infer(
    tokenizer, 
    prompt=prompt, 
    image_file=image_file, 
    base_size=1024, 
    image_size=640, 
    crop_mode=True
)

DeepSeek-OCR también soporta "deep parsing", permitiendo extraer estructuras de gráficos financieros, fórmulas químicas y figuras geométricas mediante prompts específicos.

Fuentes