Glosario
Agentes
Sistemas basados en LLMs capaces de interactuar con el entorno externo mediante la invocación de herramientas (Tool Use). Operan en un bucle de razonamiento-acción que les permite ejecutar tareas de múltiples pasos de forma autónoma.
Alucinación
Fenómeno en el que un modelo de lenguaje genera información factualmente incorrecta, inventada o inconsistente con los datos de entrada. Es especialmente problemático cuando el modelo produce respuestas convincentes pero erróneas.
Multi-Head Attention
Extensión del mecanismo de atención que ejecuta múltiples operaciones de atención en paralelo sobre diferentes subespacios de representación. Permite al modelo capturar distintos tipos de relaciones (sintácticas, semánticas) simultáneamente.
End-to-end
Enfoque de diseño en el que un único modelo o sistema aprende y ejecuta una tarea completa de principio a fin, a partir de la entrada cruda hasta la salida final, sin depender de etapas intermedias o módulos separados diseñados manualmente. En modelos de IA, permite optimizar todo el flujo de procesamiento de forma conjunta, mejorando la eficiencia y la coherencia de los resultados.
CLIP
Un encoder visual estándar (CLIP) es un modelo que transforma imágenes en representaciones numéricas alineadas con texto para permitir la comprensión conjunta de ambos.
SAM
Segment Anything Model (SAM) es un modelo de visión por computadora creado por Meta que segmenta automáticamente cualquier objeto en una imagen sin entrenamiento específico para esa tarea.
ViT
Vision Transformers (ViT) es una arquitectura de modelos que aplica el mecanismo de transformers a imágenes, representándolas como secuencias de parches para tareas de visión por computadora.
Learnable queries
Learnable queries son vectores de consulta entrenables que el modelo aprende y utiliza para extraer o resumir información relevante de una representación, en lugar de generarlos directamente a partir de la entrada.
Autoregresivo
Tipo de modelo que genera secuencias prediciendo un elemento a la vez, condicionado en todos los elementos previamente generados. Los modelos decoder-only como GPT operan de forma autoregresiva durante la inferencia.
Backpropagation
Algoritmo para calcular gradientes en redes neuronales mediante la aplicación recursiva de la regla de la cadena. Propaga el error desde la capa de salida hacia las capas anteriores para actualizar los pesos durante el entrenamiento.
Batch Normalization
Técnica de normalización que estandariza las activaciones de cada capa usando la media y varianza del mini-batch actual. Estabiliza el entrenamiento y permite usar tasas de aprendizaje más altas.
Batch Size
Número de muestras procesadas antes de actualizar los parámetros del modelo. Afecta la estabilidad del gradiente, el uso de memoria y la velocidad de convergencia.
BERT
Arquitectura Transformer encoder-only desarrollada por Google que utiliza atención bidireccional completa. Se entrena mediante Masked Language Modeling y es el estándar para tareas de comprensión del lenguaje.
BLEU Score
Métrica de evaluación para traducción automática que mide la similitud entre el texto generado y referencias humanas basándose en la coincidencia de n-gramas.
BPE (Byte Pair Encoding)
Algoritmo de tokenización que segmenta palabras en subunidades de frecuencia estadística. Reduce el problema de palabras fuera de vocabulario (OOV) manteniendo un tamaño de vocabulario manejable.
Chain of Thought (CoT)
Técnica de prompting que introduce pasos de razonamiento intermedios entre la entrada y la salida final. Mejora significativamente el rendimiento en tareas que requieren razonamiento lógico o aritmético.
CNN (Convolutional Neural Network)
Arquitectura de red neuronal especializada en procesamiento de datos con estructura espacial (imágenes). Utiliza operaciones de convolución para extraer características jerárquicas manteniendo la invarianza espacial.
Context Window
Longitud máxima de secuencia que un modelo Transformer puede procesar en una única inferencia. Limitada por la complejidad cuadrática O(N²) del mecanismo de atención.
Convolución
Operación matemática que aplica un filtro (kernel) sobre una entrada deslizándolo espacialmente. Permite compartir parámetros y detectar patrones locales independientemente de su posición.
Cross-Entropy
Función de pérdida estándar para clasificación que mide la divergencia entre la distribución de probabilidad predicha y la distribución real. Penaliza logarítmicamente las predicciones incorrectas con alta confianza.
Decoder
Componente del Transformer que genera secuencias de salida de forma autoregresiva. Utiliza masked self-attention para impedir que el modelo vea tokens futuros durante la generación.
Depthwise Separable Convolutions
Factorización de la convolución estándar en dos pasos: una convolución espacial por canal (depthwise) y una proyección lineal de canales (pointwise). Reduce el costo computacional hasta 9 veces.
Dropout
Técnica de regularización que desactiva neuronas aleatoriamente durante el entrenamiento con una probabilidad definida. Previene el sobreajuste forzando redundancia en las representaciones aprendidas.
Embeddings
Representaciones vectoriales densas de elementos discretos (palabras, tokens) en un espacio continuo de baja dimensionalidad. Codifican relaciones semánticas mediante proximidad geométrica.
Encoder
Componente del Transformer que procesa la secuencia de entrada generando representaciones contextuales. Utiliza atención bidireccional completa donde cada token puede atender a todos los demás.
Espacio Latente
Espacio vectorial continuo de dimensionalidad reducida donde se proyectan datos discretos. Las posiciones en este espacio codifican propiedades semánticas derivadas del entrenamiento.
Exploding Gradient
Problema de inestabilidad numérica donde los gradientes crecen exponencialmente durante backpropagation en redes profundas o recurrentes. Se mitiga mediante gradient clipping.
Feature Extraction
Proceso de transformar datos crudos en representaciones de mayor nivel que capturan información relevante para la tarea. En CNNs, las capas convolucionales aprenden filtros jerárquicos automáticamente.
Few-shot Learning
Capacidad de un modelo para realizar una tarea proporcionando solo unos pocos ejemplos demostrativos en el prompt, sin actualizar los parámetros del modelo.
Fine-Tuning
Proceso de adaptar un modelo pre-entrenado a una tarea específica mediante entrenamiento adicional sobre datos del dominio objetivo. Puede ser completo (todos los parámetros) o eficiente (PEFT).
FLOPs
Floating Point Operations. Métrica que cuantifica el número de operaciones de punto flotante necesarias para ejecutar un modelo. Indica el costo computacional de entrenamiento o inferencia.
Forward Pass
Propagación de datos desde la entrada hasta la salida a través de las capas de una red neuronal. Calcula las activaciones intermedias y la predicción final del modelo.
Function Calling
Capacidad de los LLMs para generar salidas estructuradas (generalmente JSON) que invocan funciones predefinidas. Permite al modelo interactuar con APIs externas y ejecutar acciones deterministas.
GPT
Generative Pre-trained Transformer. Arquitectura decoder-only de OpenAI que utiliza atención causal unidireccional. Entrenado para modelado de lenguaje autoregresivo (predecir el siguiente token).
Gradient Clipping
Técnica que limita la magnitud del gradiente durante el entrenamiento cortando su norma a un valor máximo. Previene la explosión de gradientes en redes recurrentes y profundas.
GRU (Gated Recurrent Unit)
Variante simplificada de LSTM que utiliza dos compuertas (reset y update) en lugar de tres. Ofrece rendimiento comparable con menor costo computacional y entrenamiento más rápido.
Inferencia
Proceso de usar un modelo entrenado para generar predicciones sobre nuevos datos. En LLMs, puede ser autoregresiva (token por token) o paralela según la arquitectura.
KL Divergence
Kullback-Leibler Divergence. Medida de diferencia entre dos distribuciones de probabilidad. En RLHF/RLVR se usa como penalización para evitar que el modelo se desvíe excesivamente de su distribución original.
KV Cache
Técnica de optimización que almacena los tensores de Key y Value de tokens pasados durante la inferencia autoregresiva. Reduce la complejidad de O(N²) a O(N) por paso de generación.
Latencia
Tiempo transcurrido entre la entrada de una solicitud y la recepción de la respuesta. En LLMs se distingue entre Time-to-First-Token (TTFT) y latencia inter-token.
Layer Normalization
Técnica de normalización que estandariza las activaciones a través de las características de una capa para cada muestra individualmente. Estándar en arquitecturas Transformer.
Learning Rate
Hiperparámetro que controla el tamaño del paso en la actualización de parámetros durante el entrenamiento. Valores muy altos causan divergencia; muy bajos ralentizan la convergencia.
LLM (Large Language Model)
Modelo de lenguaje de gran escala basado en arquitectura Transformer, típicamente con miles de millones de parámetros. Entrenado sobre corpus masivos para predecir el siguiente token.
LoRA (Low-Rank Adaptation)
Técnica PEFT que congela los pesos pre-entrenados e inyecta matrices de rango bajo entrenables. Reduce el uso de memoria hasta 70% sin latencia adicional en inferencia.
Loss Function
Función escalar que cuantifica el error entre las predicciones del modelo y los valores objetivo. El entrenamiento busca minimizar esta función mediante optimización de gradientes.
LSTM (Long Short-Term Memory)
Arquitectura de red recurrente que introduce una celda de memoria separada regulada por compuertas (forget, input, output). Resuelve el problema de vanishing gradient para dependencias de largo plazo.
Masked Language Modeling (MLM)
Objetivo de pre-entrenamiento donde se ocultan tokens aleatorios de la entrada y el modelo debe predecirlos. Usado en BERT para aprender representaciones bidireccionales.
Max Pooling
Operación de reducción que selecciona el valor máximo dentro de una región local. Proporciona invarianza a pequeñas traslaciones y reduce la dimensionalidad espacial.
Memory Bound
Estado donde el rendimiento de un sistema está limitado por el ancho de banda de memoria en lugar de la capacidad de cómputo. Común en inferencia de LLMs con batch size bajo.
Mini-batch
Subconjunto del dataset usado para calcular el gradiente en cada paso de entrenamiento. Balancea la estabilidad del gradiente (batch grande) con la eficiencia de memoria (batch pequeño).
Mixture of Experts (MoE)
Arquitectura que reemplaza capas densas por múltiples sub-redes especializadas (expertos). Solo un subconjunto de expertos se activa por token, desacoplando capacidad del costo de inferencia.
MLP (Multilayer Perceptron)
Red neuronal feedforward compuesta por capas de neuronas totalmente conectadas (densas). Bloque fundamental usado como clasificador final en arquitecturas profundas.
MobileNet
Familia de arquitecturas CNN eficientes diseñadas para dispositivos móviles. Utiliza Depthwise Separable Convolutions para reducir dramáticamente parámetros y FLOPs.
OOV (Out of Vocabulary)
Palabras o tokens que no están presentes en el vocabulario del modelo y no pueden ser representados directamente. BPE y técnicas de subpalabras mitigan este problema.
Overfitting
Fenómeno donde el modelo memoriza el conjunto de entrenamiento en lugar de aprender patrones generalizables. Se manifiesta como alta precisión en entrenamiento pero bajo rendimiento en datos nuevos.
PEFT (Parameter-Efficient Fine-Tuning)
Conjunto de técnicas que adaptan modelos pre-entrenados modificando solo un pequeño subconjunto de parámetros. Incluye LoRA, Adapters y Prompt Tuning.
Perplexity
Métrica de evaluación para modelos de lenguaje que mide qué tan bien el modelo predice una secuencia. Valores más bajos indican mejor capacidad predictiva.
Positional Encoding
Mecanismo que inyecta información de posición en los Transformers, ya que la atención es invariante a la permutación. Típicamente usa funciones sinusoidales o embeddings aprendidos.
PPO (Proximal Policy Optimization)
Algoritmo de aprendizaje por refuerzo usado en RLHF/RLVR para optimizar la política del modelo. Limita actualizaciones grandes para mantener estabilidad durante el entrenamiento.
Pre-training
Fase inicial de entrenamiento sobre corpus masivos con objetivos auto-supervisados (next token prediction, MLM). Genera modelos fundacionales que luego se adaptan mediante fine-tuning.
Prompt Engineering
Disciplina de diseñar y optimizar instrucciones de entrada para obtener respuestas deseadas de LLMs sin modificar sus parámetros. Incluye técnicas como few-shot y chain-of-thought.
Quantization
Técnica que reduce la precisión numérica de los pesos del modelo (FP16 → INT8 → INT4). Disminuye el tamaño del modelo y los requisitos de memoria con degradación controlada.
RAG (Retrieval-Augmented Generation)
Arquitectura que combina recuperación de documentos con generación de texto. El modelo condiciona sus respuestas en información recuperada de una base de datos externa.
ReAct (Reason + Act)
Patrón de razonamiento para agentes donde el modelo alterna entre pasos de pensamiento (Thought), ejecución de acciones (Action) y observación de resultados (Observation).
ReLU (Rectified Linear Unit)
Función de activación no lineal definida como f(x) = max(0, x). Estándar en redes profundas por su eficiencia computacional y mitigación del vanishing gradient.
ResNet (Residual Network)
Arquitectura CNN que introduce conexiones residuales (skip connections) permitiendo entrenar redes de cientos de capas. Resuelve el problema de degradación en redes muy profundas.
Reward Model
Modelo entrenado para predecir preferencias humanas, asignando puntuaciones escalares a pares prompt-respuesta. Componente central del pipeline RLHF.
RLHF (Reinforcement Learning from Human Feedback)
Pipeline de alineación que optimiza un LLM usando señales de preferencia humana. Incluye SFT, entrenamiento de Reward Model y optimización con PPO.
RLVR (Reinforcement Learning with Verifiable Rewards)
Variante de RLHF donde la recompensa proviene de verificadores deterministas (ejecución de código, solvers matemáticos) en lugar de modelos de preferencia humana.
RNN (Recurrent Neural Network)
Arquitectura de red neuronal que mantiene un estado oculto que se actualiza secuencialmente. Capaz de procesar secuencias de longitud variable pero limitada por dependencia temporal.
Routing
Mecanismo en arquitecturas MoE que decide qué expertos procesan cada token. Típicamente implementado mediante una red de compuerta (Gating Network) con selección Top-k.
Scaled Dot-Product Attention
Mecanismo de atención que calcula la similitud entre queries y keys mediante producto punto, escalado por √dk para estabilidad de gradientes. Núcleo de la arquitectura Transformer.
Self-Attention
Mecanismo donde cada posición de una secuencia atiende a todas las demás posiciones de la misma secuencia. Permite modelar dependencias globales independientemente de la distancia.
SFT (Supervised Fine-Tuning)
Fase de fine-tuning donde el modelo se entrena sobre demostraciones humanas de alta calidad. Transforma el modelo base en uno capaz de seguir instrucciones.
SGD (Stochastic Gradient Descent)
Algoritmo de optimización que actualiza parámetros usando gradientes calculados sobre mini-batches aleatorios. Base de la mayoría de optimizadores modernos (Adam, RMSprop).
Sigmoid
Función de activación que comprime valores al rango (0, 1). Usada en compuertas de LSTM/GRU y capas de salida para clasificación binaria.
Similitud Coseno
Medida de similitud entre vectores que calcula el coseno del ángulo entre ellos. Rango de -1 (opuestos) a 1 (idénticos). Estándar para comparar embeddings.
Skip Connections
Conexiones que saltan una o más capas, sumando la entrada directamente a la salida. Facilitan el flujo de gradientes en redes profundas y permiten aprender mapeos residuales.
Softmax
Función que transforma un vector de valores reales en una distribución de probabilidad. Usada en capas de salida para clasificación multiclase y en mecanismos de atención.
Sparse Activation
Patrón de computación donde solo una fracción de los parámetros del modelo se activa para cada entrada. Característico de arquitecturas MoE que desacoplan capacidad de costo.
Teacher Forcing
Técnica de entrenamiento donde se alimenta al modelo con la secuencia objetivo real en lugar de sus propias predicciones. Permite paralelización completa durante el entrenamiento.
Temperature
Hiperparámetro que controla la aleatoriedad en la generación de texto escalando los logits antes del softmax. Valores bajos producen texto determinista; altos aumentan la diversidad.
Throughput
Cantidad de trabajo procesado por unidad de tiempo. En LLMs se mide típicamente en tokens por segundo generados o procesados.
Tokenización
Proceso de dividir texto en unidades discretas (tokens) que el modelo puede procesar. Puede operar a nivel de palabra, subpalabra (BPE) o carácter.
Top-k Sampling
Estrategia de decodificación que restringe el muestreo a los k tokens con mayor probabilidad. Balancea diversidad y coherencia en la generación de texto.
Transfer Learning
Paradigma donde conocimiento aprendido en una tarea se aprovecha para otra relacionada. En NLP, modelos pre-entrenados se adaptan a tareas específicas mediante fine-tuning.
Transformer
Arquitectura de red neuronal basada enteramente en mecanismos de atención, sin recurrencia ni convoluciones. Fundamento de todos los LLMs modernos (GPT, BERT, LLaMA).
Vanishing Gradient
Problema donde los gradientes se vuelven exponencialmente pequeños durante backpropagation en redes profundas o recurrentes. Impide el aprendizaje en capas tempranas.
Vector Database
Sistema de almacenamiento optimizado para búsqueda de similitud en espacios de alta dimensionalidad. Componente esencial de arquitecturas RAG para recuperación semántica.
VRAM
Video Random Access Memory. Memoria de la GPU donde residen los pesos del modelo, activaciones y cache durante entrenamiento e inferencia. Principal limitante para modelos grandes.
Zero-shot
Capacidad de un modelo para realizar una tarea sin ningún ejemplo demostrativo, solo con instrucciones en lenguaje natural. Indicador de generalización del modelo.
Adam
Optimizador adaptativo que combina momentum y tasas de aprendizaje por parámetro. Mantiene estimaciones de primer y segundo momento de los gradientes, siendo el estándar para entrenamiento de Transformers.
Attention Mask
Matriz binaria que define qué posiciones puede atender cada token en el mecanismo de atención. Implementa causalidad en decoders y maneja tokens de padding en batches de longitud variable.
Beam Search
Algoritmo de decodificación que mantiene múltiples hipótesis (beams) en paralelo durante la generación. Explora el espacio de secuencias más exhaustivamente que el muestreo greedy.
Bidireccional
Propiedad de modelos donde cada token puede atender a todos los demás tokens de la secuencia, tanto anteriores como posteriores. Característica de arquitecturas encoder como BERT.
BPTT (Backpropagation Through Time)
Extensión de backpropagation para redes recurrentes que desenrolla la red a través del tiempo. Susceptible a vanishing/exploding gradients en secuencias largas.
Catastrophic Forgetting
Fenómeno donde un modelo neural pierde conocimiento previamente aprendido al entrenarse en nuevas tareas. Técnicas como LoRA y regularización KL mitigan este problema durante fine-tuning.
Chunking
Proceso de dividir documentos largos en fragmentos más pequeños para indexación y recuperación. El tamaño del chunk es crítico para el rendimiento de sistemas RAG.
Compute Bound
Estado donde el rendimiento está limitado por la capacidad de cómputo (FLOPs) en lugar del ancho de banda de memoria. Típico en entrenamiento y batch sizes altos.
Conditional Computation
Paradigma donde diferentes partes del modelo se activan condicionalmente según la entrada. Fundamento de arquitecturas MoE que desacoplan capacidad de costo computacional.
Context Length
Número máximo de tokens que un modelo puede procesar en una única inferencia. Determinado por la arquitectura y los recursos de memoria disponibles.
Dense Layer
Capa neuronal donde cada neurona está conectada a todas las neuronas de la capa anterior. También conocida como fully connected layer, requiere O(N×M) parámetros.
Embedding Dimension
Número de dimensiones del espacio vectorial donde se representan tokens o palabras. Valores típicos van de 256 a 4096 dependiendo del tamaño del modelo.
Encoder-Decoder
Arquitectura Transformer completa con ambos componentes, diseñada para tareas seq2seq como traducción. El encoder procesa la entrada; el decoder genera la salida condicionada en ella.
Epoch
Una pasada completa por todo el dataset de entrenamiento. El número de epochs afecta la convergencia y el riesgo de overfitting.
Expert Parallelism
Estrategia de paralelismo distribuido donde diferentes expertos de un modelo MoE residen en diferentes GPUs. Requiere comunicación all-to-all entre nodos.
Faithfulness
Grado en que el razonamiento explicado por un modelo refleja su proceso interno real. Un modelo puede generar reasoning correcto pero respuesta incorrecta, o viceversa.
Feed-Forward Network (FFN)
Componente del bloque Transformer que procesa cada posición independientemente mediante capas densas. Típicamente expande la dimensionalidad 4x antes de proyectarla de vuelta.
Few-shot
Configuración donde se proporcionan pocos ejemplos demostrativos (2-10) en el prompt para guiar al modelo. Punto intermedio entre zero-shot y fine-tuning completo.
Forget Gate
Compuerta en arquitecturas LSTM que decide qué información descartar del estado de celda anterior. Crucial para el manejo de dependencias de largo plazo.
Foundation Model
Modelo pre-entrenado a gran escala diseñado para ser adaptado a múltiples tareas downstream. Ejemplos incluyen GPT-3, BERT, LLaMA y sus variantes.
Gating Network
Red neuronal que determina qué expertos procesar cada token en arquitecturas MoE. Produce un vector disperso de pesos mediante selección Top-k.
Glorot Initialization
Técnica de inicialización de pesos (también llamada Xavier) que escala los valores según el número de neuronas de entrada y salida. Mantiene la varianza de activaciones estable.
GloVe
Global Vectors for Word Representation. Algoritmo de embeddings que factoriza la matriz de co-ocurrencia global del corpus. Alternativa a Word2Vec basada en estadísticas globales.
Gradient Accumulation
Técnica que acumula gradientes de múltiples mini-batches antes de actualizar parámetros. Permite simular batch sizes mayores con memoria limitada.
Greedy Decoding
Estrategia de generación que selecciona el token con mayor probabilidad en cada paso. Determinista pero puede generar texto subóptimo al no explorar alternativas.
Ground Truth
Valores reales o correctos contra los cuales se evalúan las predicciones del modelo. En RLVR, proviene de verificadores deterministas en lugar de anotaciones humanas.
He Initialization
Técnica de inicialización de pesos diseñada específicamente para activaciones ReLU. Escala la varianza por 2/n donde n es el número de entradas.
Hidden State
Representación interna que codifica información de la secuencia procesada hasta el momento. En RNNs actúa como memoria; en Transformers son las activaciones intermedias.
HNSW
Hierarchical Navigable Small World. Algoritmo de indexación para búsqueda aproximada de vecinos más cercanos. Estándar en bases de datos vectoriales por su balance velocidad-precisión.
Hiperparámetro
Parámetro de configuración establecido antes del entrenamiento que no se aprende de los datos. Incluye learning rate, batch size, número de capas y dimensiones.
ImageNet
Dataset de referencia con millones de imágenes etiquetadas en miles de categorías. Benchmark estándar para evaluación de arquitecturas de visión por computador.
Inference-Time Compute
Cómputo adicional dedicado durante la inferencia para mejorar la calidad de las respuestas. Incluye técnicas como Chain-of-Thought, búsqueda y verificación iterativa.
Input Gate
Compuerta en arquitecturas LSTM que determina qué nueva información almacenar en el estado de celda. Trabaja en conjunto con el candidato de celda.
Instruction Following
Capacidad de un modelo para ejecutar tareas según instrucciones en lenguaje natural. Objetivo principal del fine-tuning supervisado y RLHF en asistentes conversacionales.
Kernel (Filtro)
Matriz de pesos que se desliza sobre la entrada en operaciones de convolución. Aprende a detectar patrones locales como bordes, texturas o formas.
Knowledge Cutoff
Fecha límite del conocimiento de un modelo, determinada por cuándo se recolectaron sus datos de entrenamiento. Eventos posteriores son desconocidos para el modelo.
Load Balancing Loss
Pérdida auxiliar en modelos MoE que penaliza la distribución desigual de tokens entre expertos. Previene el colapso donde solo algunos expertos reciben carga.
Logits
Valores sin normalizar producidos por la última capa del modelo antes de aplicar softmax. Representan puntuaciones crudas para cada clase o token del vocabulario.
Masked Self-Attention
Variante de self-attention que aplica una máscara causal para impedir que posiciones atiendan a posiciones futuras. Fundamental para modelos autoregresivos.
Mode Collapse
Fenómeno donde el modelo converge a generar un rango limitado de outputs, perdiendo diversidad. Problema común en entrenamiento adversarial y RL sin regularización KL.
Momentum
Técnica de optimización que acumula gradientes de pasos anteriores para suavizar actualizaciones. Ayuda a escapar de mínimos locales y puntos de silla.
Negative Sampling
Técnica de aproximación para entrenar embeddings que muestrea ejemplos negativos aleatorios en lugar de calcular el softmax completo sobre el vocabulario.
Next Token Prediction
Objetivo de entrenamiento donde el modelo predice el siguiente token dado el contexto previo. Fundamento del pre-entrenamiento de modelos autoregresivos como GPT.
NMT (Neural Machine Translation)
Enfoque de traducción automática basado en redes neuronales end-to-end. Dominado por arquitecturas Transformer encoder-decoder desde 2017.
One-Hot Encoding
Representación donde cada elemento se codifica como un vector binario disperso con un único 1. Ineficiente para vocabularios grandes y no captura relaciones semánticas.
Output Gate
Compuerta en arquitecturas LSTM que controla qué información del estado de celda se expone como salida. Filtra el estado interno antes de producir el hidden state.
Padding
Técnica para igualar longitudes de secuencias en un batch añadiendo tokens especiales. Requiere máscaras de atención para que el modelo ignore estas posiciones.
PagedAttention
Técnica de gestión de memoria que divide el KV cache en bloques no contiguos inspirada en memoria virtual. Resuelve la fragmentación en frameworks como vLLM.
Pass@k
Métrica de evaluación para generación de código que mide la probabilidad de que al menos una de k muestras generadas pase todos los tests. Estándar en benchmarks como HumanEval.
Pointwise Convolution
Convolución 1×1 que combina linealmente canales sin procesar información espacial. Segunda etapa de las Depthwise Separable Convolutions.
Prefill
Fase inicial de inferencia donde se procesa el prompt completo en paralelo para poblar el KV cache. Determina el Time-to-First-Token (TTFT).
Prompt Injection
Ataque de seguridad donde entradas maliciosas manipulan el comportamiento del modelo sobrescribiendo instrucciones del sistema. Riesgo crítico en agentes con acceso a herramientas.
Pruning
Técnica de compresión que elimina conexiones o neuronas con pesos cercanos a cero. Reduce el tamaño del modelo preservando la mayor parte del rendimiento.
QAT (Quantization Aware Training)
Técnica de cuantización que simula precisión reducida durante el entrenamiento. Más costosa que PTQ pero produce modelos cuantizados de mayor calidad.
QLoRA
Combinación de cuantización INT4 con LoRA que permite fine-tuning de modelos grandes en hardware de consumo. El modelo base permanece cuantizado mientras los adaptadores entrenan en FP16.
Query, Key, Value
Proyecciones lineales de la entrada usadas en el mecanismo de atención. Query representa qué buscar, Key qué contiene cada posición, y Value la información a agregar.
Reasoning Model
Modelo optimizado para tareas que requieren razonamiento paso a paso (matemáticas, código, lógica). Utiliza técnicas como CoT nativo e inference-time compute extendido.
Recall
Métrica que mide la proporción de casos positivos reales que fueron correctamente identificados. En retrieval, indica qué porcentaje de documentos relevantes fueron recuperados.
Reward Hacking
Fenómeno donde el modelo optimiza la función de recompensa de formas no deseadas, explotando debilidades del Reward Model en lugar de mejorar la calidad real.
RMSprop
Optimizador adaptativo que normaliza gradientes por una media móvil de sus magnitudes cuadradas. Predecesor de Adam, aún usado en entrenamiento de RNNs.
Rollout
Secuencia completa de acciones y observaciones generada por una política durante entrenamiento por refuerzo. En RLHF/RLVR, corresponde a respuestas generadas para calcular recompensas.
Sandbox
Entorno aislado para ejecutar código no confiable de forma segura. Esencial en RLVR para evaluar código generado sin riesgos de seguridad.
Scale Factor
Valor usado en cuantización para mapear entre rangos de punto flotante y entero. Calculado a partir de los valores mínimos y máximos del tensor.
Seq2Seq (Sequence-to-Sequence)
Paradigma donde el modelo transforma una secuencia de entrada en una secuencia de salida de longitud potencialmente diferente. Aplicaciones incluyen traducción y resumen.
Sequence Length
Número de tokens en una secuencia de entrada o salida. Afecta directamente el consumo de memoria y cómputo debido a la complejidad cuadrática de la atención.
Skip-gram
Arquitectura de Word2Vec que predice palabras de contexto dado un término central. Efectiva para capturar relaciones semánticas en vocabularios grandes.
Sparse Attention
Variantes de atención que reducen la complejidad de O(N²) a O(N) o O(N log N) atendiendo solo a subconjuntos de posiciones. Incluye Longformer, BigBird y Reformer.
Speculative Decoding
Técnica de aceleración de inferencia que usa un modelo pequeño para generar candidatos que el modelo grande verifica en paralelo. Reduce latencia sin cambiar la distribución.
Stride
Paso de desplazamiento del kernel en operaciones de convolución o pooling. Strides mayores que 1 reducen la dimensionalidad espacial de la salida.
Subword
Unidad de tokenización intermedia entre palabra y carácter. Permite representar cualquier texto con vocabulario finito mientras captura morfología.
System Prompt
Instrucciones iniciales que definen el comportamiento, personalidad y restricciones del modelo. Procesado antes del mensaje del usuario pero potencialmente vulnerable a sobrescritura.
Tanh (Tangente Hiperbólica)
Función de activación que comprime valores al rango (-1, 1). Usada en estados de celda LSTM y capas recurrentes, aunque ReLU domina en arquitecturas feedforward.
Tensor
Estructura de datos multidimensional generalización de escalares, vectores y matrices. Representación fundamental de datos y parámetros en deep learning.
Time to First Token (TTFT)
Latencia desde que se envía una solicitud hasta que se genera el primer token de respuesta. Determinado principalmente por la fase de prefill.
Token
Unidad básica de procesamiento en modelos de lenguaje. Puede representar palabras completas, subpalabras o caracteres según el tokenizador.
Tool Use
Capacidad de LLMs para invocar herramientas externas (APIs, calculadoras, bases de datos) mediante generación de llamadas estructuradas. Sinónimo de Function Calling.
Top-p Sampling (Nucleus Sampling)
Estrategia de decodificación que muestrea del conjunto mínimo de tokens cuya probabilidad acumulada supera p. Más adaptativo que Top-k para diferentes contextos.
Trazabilidad
Capacidad de identificar las fuentes de información que fundamentan una respuesta. Ventaja principal de RAG sobre conocimiento paramétrico en aplicaciones empresariales.
Unidireccional
Propiedad de modelos donde cada token solo puede atender a tokens anteriores (left-to-right). Característica de arquitecturas decoder como GPT.
Varianza
Medida de dispersión de valores alrededor de la media. En optimización, alta varianza en estimaciones de gradiente dificulta la convergencia.
VGG
Familia de arquitecturas CNN caracterizada por el uso exclusivo de convoluciones 3×3 apiladas. VGG-16 alcanza 138M de parámetros, siendo un baseline clásico en visión.
Width Multiplier
Hiperparámetro en MobileNet que escala uniformemente el número de canales en cada capa. Permite ajustar el trade-off entre precisión y eficiencia computacional.
Word2Vec
Familia de algoritmos (Skip-gram, CBOW) para aprender embeddings de palabras mediante objetivos predictivos sobre contexto local. Fundacional para representaciones distribuidas.
Zero-point
Valor entero en cuantización asimétrica que representa el cero del dominio de punto flotante. Permite representar rangos que no están centrados en cero.