Los Datos Viven en Espacio Geométrico
Todo Es un Vector
En aprendizaje automático, los datos viven en espacio geométrico. Cada punto de datos con N características es un punto en espacio N-dimensional. Esto no es una metáfora — es el fundamento matemático literal de cada algoritmo.
Una imagen de dígito manuscrito (28×28 píxeles) es un punto en espacio de 784 dimensiones. Cada píxel es una coordenada. Dos dígitos que se parecen son puntos cercanos en ese espacio. Dos dígitos diferentes están lejos.
Una incrustación de palabras asigna una palabra a un punto en espacio de 300 dimensiones. Palabras con significados similares terminan en la misma vecindad. 'Perro' & 'cachorro' están cerca. 'Perro' & 'parlamento' están lejos.
Un perfil de usuario con 50 características (edad, historial de compras, patrones de clics) es un punto en espacio de 50 dimensiones. Los motores de recomendación encuentran usuarios 'cercanos' en este espacio & sugieren lo que les gustó a sus vecinos geométricos.
La geometría es cómo razonamos sobre estos espacios. Distancia, dirección, ángulo, proyección — estas son las operaciones fundamentales del aprendizaje automático.
Operaciones Vectoriales — Los Bloques de Construcción
El Producto Punto Impulsa Todo
Tres operaciones vectoriales importan más en aprendizaje automático:
Suma vectorial — combinando características o señales. Si sumas dos vectores de palabras, obtienes un vector que representa ambos conceptos mezclados.
Multiplicación escalar — escalar un vector cambia su magnitud sin cambiar su dirección. Las tasas de aprendizaje en descenso por gradiente son multiplicadores escalares.
Producto punto — este es el caballo de batalla. El producto punto de dos vectores a & b es igual a |a||b|cos(θ), donde θ es el ángulo entre ellos. Cuando los vectores están normalizados (longitud unitaria), el producto punto ES el coseno del ángulo.
Similitud coseno = cos(θ) = (a·b) / (|a||b|)
Esta única fórmula impulsa:
- Motores de búsqueda — encontrando documentos similares a una consulta
- Mecanismos de atención — decidiendo qué tokens importan entre sí
- Motores de recomendación — emparejando perfiles de usuario a perfiles de artículos
- Generación aumentada por recuperación — encontrando contexto relevante para modelos de lenguaje
cos(θ) = 1 significa que los vectores apuntan exactamente en la misma dirección (significado idéntico). cos(θ) = 0 significa que son perpendiculares (no relacionado). cos(θ) = -1 significa que apuntan en direcciones opuestas (significado opuesto).
Similitud Coseno
Similitud coseno es una de las métricas más utilizadas en sistemas modernos de aprendizaje automático.
Tres Formas de Medir Distancia
La Elección de Métrica de Distancia Cambia Lo Que 'Similar' Significa
Dados dos puntos en el espacio, hay muchas formas de medir la 'distancia' entre ellos. Cada métrica define una geometría diferente, & esa geometría determina lo que tu modelo considera 'similar'.
Distancia euclidiana (L2) — la distancia en línea recta. d = √(Σ(aᵢ - bᵢ)²). Esta es la distancia 'como vuela el cuervo', la que tu intuición espera. Trata todas las dimensiones por igual & es sensible a la magnitud.
Distancia Manhattan (L1) — la distancia de caminar en la cuadrícula. d = Σ|aᵢ - bᵢ|. Como navegar bloques de ciudad — solo puedes moverte a lo largo de ejes, nunca diagonalmente. Más robusta a valores atípicos en dimensiones individuales porque no eleva las diferencias al cuadrado.
Distancia coseno — mide el ángulo entre vectores, ignorando completamente la magnitud. d = 1 - cos(θ). Dos documentos sobre el mismo tema tienen pequeña distancia coseno independientemente de la longitud. Dos documentos igualmente largos sobre temas diferentes tienen grande distancia coseno.
La elección no es arbitraria. Si la magnitud importa (dosis de una droga, temperatura de un reactor), usa euclidiana. Si te importan las proporciones en lugar de los absolutos (distribuciones de frecuencia de palabras, perfiles de preferencia del usuario), usa coseno. Si las diferencias de características individuales importan más que la magnitud agregada (diagnóstico de fallas, donde un sensor disparándose es significativo), usa Manhattan.
K-Vecinos Más Cercanos — Geometría Pura
KNN: El Algoritmo Geométrico Más Simple
K-Vecinos Más Cercanos es el algoritmo geométrico más transparente en aprendizaje automático. No tiene fase de entrenamiento — ESTÁ ES la información de entrenamiento.
Para clasificar un nuevo punto: encuentra los K puntos más cercanos en los datos de entrenamiento. Déjalos votar. La clase mayoritaria gana. Ese es todo el algoritmo.
El límite de decisión que KNN produce es un diagrama de Voronoi — una partición del espacio donde cada punto pertenece a la región de su ejemplo de entrenamiento más cercano. Los límites son las bisectrices perpendiculares entre puntos de entrenamiento adyacentes.
Aquí está la visión geométrica que importa: la elección de métrica de distancia cambia completamente el diagrama de Voronoi. La distancia euclidiana produce límites curvos, circulares. La distancia Manhattan produce límites en forma de diamante. La distancia coseno produce límites angulares, en forma de cono.
Mismos datos de entrenamiento. Mismo K. Diferente métrica de distancia. Modelo completamente diferente. La geometría ES el modelo.
Elegir una Métrica de Distancia
Las métricas de distancia no son intercambiables — la elección correcta depende de lo que 'similar' significa para tus datos.
Hiperplanos — Límites Planos en Altas Dimensiones
Todo Clasificador Lineal Encuentra un Hiperplano
Un clasificador lineal encuentra una superficie plana que separa dos clases. La dimensionalidad de esta superficie depende del espacio:
- En espacio 2D, el límite es una línea (1-dimensional)
- En espacio 3D, el límite es un plano (2-dimensional)
- En espacio de 784D (imágenes de dígitos MNIST), el límite es un hiperplano de 783-dimensional
El patrón general: en espacio N-dimensional, el límite de decisión es una superficie plana (N-1)-dimensional llamada un hiperplano.
Regresión logística, máquinas de vectores de soporte, & perceptrones de capa única son todos buscadores de hiperplanos. Difieren en CÓMO encuentran el mejor hiperplano:
- Regresión logística maximiza la probabilidad de clasificación correcta
- SVMs maximiza el margen geométrico — la distancia desde el hiperplano a los puntos de datos más cercanos
- Perceptrones simplemente encuentran cualquier hiperplano que separe los datos, sin garantía de optimalidad
El vector de peso de un clasificador lineal ES el vector normal al hiperplano. El término de sesgo desplaza el hiperplano lejos del origen. Estos son objetos geométricos con interpretaciones geométricas.
Más Allá de Límites Planos
Cuando los Datos No Son Separables Linealmente
Muchos problemas del mundo real no pueden resolverse con un límite plano. Considera clasificar imágenes de gatos versus perros — ningún hiperplano único en espacio de píxeles los separa limpiamente.
Dos estrategias geométricas existen:
Estrategia 1: El truco del núcleo — Transforma los datos a un espacio de dimensión más alta donde SÍ son linealmente separables. Un ejemplo clásico: puntos dentro de un círculo (clase A) & puntos fuera (clase B) en 2D. Ninguna línea los separa. Pero añade una tercera dimensión z = x² + y², & los puntos internos (pequeño x² + y²) se sientan bajos mientras que los puntos externos (grande x² + y²) se sientan altos. Ahora un plano plano los separa perfectamente.
Las SVMs con funciones de núcleo hacen esto implícitamente — computan productos punto en el espacio de dimensión alta sin nunca construir los vectores reales de dimensión alta. Esto se llama el 'truco del núcleo' & es una visión puramente geométrica.
Estrategia 2: Redes neuronales — Apila transformaciones lineales con funciones de activación no lineales. Cada capa aplica una transformación lineal (multiplicación de matriz = rotación + escalado + corte) seguida por un 'doblez' no lineal (ReLU, sigmoid, tanh). La composición de muchas operaciones lineales-luego-doblez puede aproximar cualquier forma de límite continuo.
Una red neuronal profunda es una secuencia de transformaciones geométricas que retuerce el espacio de entrada hasta que las clases se vuelven linealmente separables en la capa final.
Separando Datos Circulares
Este es uno de los problemas geométricos más importantes en aprendizaje automático.
La Superficie de Pérdida
Entrenamiento = Caminar Cuesta Abajo en una Superficie
Todo modelo de aprendizaje automático tiene parámetros — pesos & sesgos. La función de pérdida mide cuánto se equivocan las predicciones del modelo. Juntos, estos definen una superficie de pérdida: un paisaje donde cada punto corresponde a un conjunto específico de valores de parámetros, & la altura es la pérdida.
Para un modelo con 2 parámetros, la superficie de pérdida es un paisaje 3D que puedes visualizar — colinas, valles & llanuras. Para un modelo con 175 mil millones de parámetros (como GPT-3), la superficie de pérdida existe en espacio de 175 mil millones de dimensiones. Las matemáticas son idénticas.
Descenso por gradiente es el algoritmo que navega esta superficie. El gradiente es un objeto geométrico — un vector que apunta en la dirección de ascenso más pronunciado. Para reducir pérdida, muévete en la dirección opuesta: el gradiente negativo. Esto es literalmente caminar cuesta abajo.
La tasa de aprendizaje controla el tamaño del paso. Demasiado grande & pasas los valles. Demasiado pequeño & avanzas lentamente. El gradiente te dice la dirección; la tasa de aprendizaje te dice qué tan lejos ir.
Puntos de Silla, Mínimos & la Geometría de Altas Dimensiones
La Superficie de Pérdida No Es un Simple Cuenco
Una imagen ingenua del entrenamiento imagina un cuenco suave con un solo punto más bajo. La realidad es mucho más compleja:
Mínimos locales — valles que no son los más profundos. El descenso por gradiente puede quedarse aquí atrapado, satisfecho de que cada dirección va hacia arriba, incluso aunque existe un valle más profundo en otro lugar.
Puntos de silla — con forma de silla de caballo. La pérdida se curva hacia abajo en algunas dimensiones & hacia arriba en otras. En 2D esto es raro. En altas dimensiones, los puntos de silla son exponencialmente más comunes que los mínimos locales. Un punto crítico en espacio de 1000 dimensiones tiene que curvarse hacia arriba en TODAS las 1000 dimensiones para ser un mínimo local. Si incluso una dimensión se curva hacia abajo, es un punto de silla.
Mesetas planas — regiones donde el gradiente está cerca de cero. El entrenamiento se detiene porque no hay pendiente para seguir.
Mínimos agudos versus planos — un mínimo agudo es un valle estrecho. Un mínimo plano es un valle amplio. La investigación sugiere que los mínimos planos generalizan mejor a datos no vistos, porque pequeñas perturbaciones a los parámetros (del ruido en datos nuevos) no cambian dramáticamente la pérdida.
SGD con momento ayuda a escapar de puntos de silla & mínimos agudos. La aleatoriedad del descenso por gradiente estocástico actúa como sacudir una pelota en la superficie — rebota fuera de trampas estrechas & encuentra valles más amplios & planos.
SGD versus Descenso por Gradiente de Lote Completo
Esta es una de las perspectivas prácticas más importantes en entrenamiento del aprendizaje automático.
Palabras como Vectores — Aritmética Semántica
El Significado Tiene Dirección
Word2Vec, GloVe, & incrustaciones de transformadores modernos mapean tokens discretos (palabras, subpalabras) a espacios vectoriales continuos. El resultado es un mundo geométrico donde el significado tiene coordenadas.
El ejemplo famoso: rey - hombre + mujer ≈ reina
Esta es aritmética vectorial. El vector de 'hombre' a 'rey' representa el concepto 'realeza aplicada a un macho.' El vector de 'mujer' a 'reina' representa 'realeza aplicada a una hembra.' Estos vectores son aproximadamente paralelos — misma dirección, misma relación, puntos de inicio diferentes.
Otras relaciones geométricas que emergen del entrenamiento en texto:
- París - Francia + Italia ≈ Roma (relación capital-de)
- caminó - caminar + nadar ≈ nadó (transformación de tiempo pasado)
- más grande - grande + pequeño ≈ más pequeño (forma comparativa)
Nadie programó estas relaciones. El modelo las descubrió notando que el significado tiene estructura geométrica al leer miles de millones de palabras. Las direcciones en espacio de incrustación corresponden a relaciones semánticas. Este es uno de los descubrimientos geométricos más profundos en aprendizaje automático.
La Hipótesis del Múltiple
Los Datos de Alta Dimensión Viven en Superficies de Baja Dimensión
Una imagen de cara en escala de grises de 64×64 tiene 4.096 valores de píxel — es un punto en espacio de 4.096 dimensiones. Pero no cada punto en ese espacio es una cara válida. La mayoría de vectores de 4.096 dimensiones aleatorios se parecen a ruido estático, no a caras.
La hipótesis del múltiple establece que los datos reales, de alta dimensión, realmente viven en o cerca de superficies curvas de baja dimensión (múltiples) incrustadas en el espacio de alta dimensión. El múltiple de caras podría ser solo de 50 dimensiones — parametrizado por factores como ángulo de iluminación, postura de cabeza, expresión, tono de piel, edad.
Esta es una afirmación geométrica con consecuencias prácticas:
- Reducción de dimensionalidad (PCA, t-SNE, UMAP) funciona porque los datos son aproximadamente de baja dimensión. Estos algoritmos encuentran el múltiple & proyectan sobre él.
- Codificadores automáticos aprenden a comprimir datos en un espacio latente de baja dimensión (el múltiple) & reconstruir desde él.
- Modelos generativos (VAEs, modelos de difusión) aprenden el múltiple & muestrean nuevos puntos sobre él — generando nuevas caras, nueva música, nuevo texto que se ve real porque se encuentra en el múltiple aprendido.
Cuando tu modelo falla al generalizar, una explicación geométrica es: aprendió el múltiple incorrecto. Los datos de entrenamiento trazaron una superficie que no coincide con la verdadera distribución de datos.
Analogías Vectoriales
La estructura geométrica de espacios de incrustación es uno de los resultados más sorprendentes en aprendizaje automático moderno.
Curvas ROC — Calidad de Clasificación como Área
Métricas de Evaluación Viven en Espacios Geométricos
Una curva ROC (Característica Operativa del Receptor) grafica Tasa de Verdadero Positivo (eje y) contra Tasa de Falso Positivo (eje x) mientras barremos el umbral de clasificación de 0 a 1.
Este es un espacio geométrico con puntos de referencia significativos:
- (0, 1) — la esquina superior izquierda — clasificación perfecta. Cada positivo detectado, cero falsas alarmas.
- (0, 0) — la esquina inferior izquierda — el modelo clasifica todo como negativo.
- (1, 1) — la esquina superior derecha — el modelo clasifica todo como positivo.
- La diagonal de (0,0) a (1,1) — un clasificador aleatorio. En cada umbral, tiene tasas de verdadero positivo & falso positivo iguales.
AUC (Área Bajo la Curva) es literalmente una medición de área geométrica. AUC = 0,5 significa que el modelo es aleatorio (el área bajo la diagonal). AUC = 1,0 significa clasificación perfecta (el cuadrado unitario completo). El arco de curva ROC de un modelo bueno hacia la esquina superior izquierda, encerrando más área.
AUC tiene una interpretación probabilística hermosa: es igual a la probabilidad de que el modelo puntúe un ejemplo positivo aleatorio más alto que un ejemplo negativo aleatorio. Pero geométricamente, es solo área — & esa simplicidad geométrica es lo que la hace intuitiva.
Espacio Precisión-Recuperación
Una Compensación Geométrica Diferente
Las curvas precisión-recuperación viven en un espacio geométrico diferente que las curvas ROC, & cuentan una historia diferente.
Precisión = de todo lo que el modelo marcó como positivo, ¿qué fracción fue realmente positivo?
Recuperación = de todos los positivos reales, ¿qué fracción encontró el modelo?
Mientras bajas el umbral de clasificación (marcas más cosas como positivas), la recuperación aumenta (atrapas más positivos reales) pero la precisión típicamente disminuye (también atrapas más falsos positivos). Esta compensación traza una curva en espacio precisión-recuperación.
Puntuación F1 = 2 × (precisión × recuperación) / (precisión + recuperación) — la media armónica. Geométricamente, la puntuación F1 es igual al punto en la curva precisión-recuperación donde precisión iguala recuperación. Es donde la curva intersecta la diagonal del cuadrado precisión-recuperación.
Precisión Promedio (AP) = el área bajo la curva precisión-recuperación. Como AUC-ROC, resume toda la curva en un número único que representa área geométrica.
Las curvas ROC & las curvas precisión-recuperación son vistas geométricas complementarias del mismo modelo. Las curvas ROC pueden ser engañosamente optimistas en conjuntos de datos desbalanceados (99% clase negativa). Las curvas precisión-recuperación permanecen informativas porque se enfocan en la clase positiva.
Interpretación de AUC-ROC
Entender qué AUC-ROC mide geométricamente te ayuda a elegir entre modelos.
Transformadores — Productos Punto como Atención
La Atención Es una Medida de Similitud Geométrica
La arquitectura de transformador — el fundamento de los modelos de lenguaje modernos — se construye sobre una operación geométrica: el producto punto.
Para cada token en una secuencia, el transformador computa tres vectores: Consulta (Q), Clave (K), & Valor (V), cada uno obtenido multiplicando la incrustación de entrada por matrices de peso aprendidas.
La puntuación de atención entre dos tokens es: puntuación = Q · K^T / √d
Este es un producto punto escalado — una medida de similitud geométrica. Cuando Q & K apuntan en la misma dirección (ángulo pequeño entre ellos), el producto punto es grande: esta clave es altamente relevante para esta consulta. Cuando son perpendiculares, el producto punto es cero: irrelevante.
Las puntuaciones se pasan a través de softmax para crear una distribución de probabilidad: pesos de atención que suman a 1. La salida es la suma ponderada de vectores de Valor, donde los pesos están determinados por alineamiento geométrico.
En una oración como 'El gato se sentó en la alfombra porque estaba cansado,' la atención computa: para la palabra 'estaba,' ¿cuáles otras palabras tienen el mayor alineamiento geométrico? Si el vector Q para 'estaba' se alinea más cerca con el vector K para 'gato,' el modelo atiende a 'gato' — resolviendo la referencia del pronombre a través de geometría.
Atención Multi-Cabeza — Perspectivas Geométricas Múltiples
¿Por Qué Múltiples Cabezas?
La auto-atención con un conjunto único de matrices Q, K, V computa un tipo de alineamiento geométrico. Pero el lenguaje tiene muchos tipos de relaciones — sintácticas, semánticas, posicionales, referenciales.
Atención multi-cabeza usa múltiples conjuntos de matrices de proyección Q, K, V, cada una proyectando a un subespacio diferente de la incrustación. Cada cabeza mide alineamiento en su propio subespacio geométrico.
Lo que los investigadores observan cuando inspeccionan cabezas de atención:
- Cabeza 1 podría atender a la palabra anterior (proximidad posicional)
- Cabeza 2 podría atender al verbo del sujeto (dependencia sintáctica)
- Cabeza 3 podría atender a palabras semánticamente relacionadas anteriormente en el contexto
- Cabeza 4 podría atender al sustantivo más reciente (correferencia)
Cada cabeza es una lente geométrica diferente sobre los mismos datos. Las proyecciones rotan & escalan el espacio de incrustación diferentemente, haciendo diferentes relaciones visibles a través de alineamiento.
Este es por qué los transformadores superan modelos con un mecanismo de atención único. Un producto punto único en el espacio de incrustación completo captura una noción de similitud. Múltiples productos punto en diferentes subespacios capturan múltiples, nociones complementarias simultáneamente.
Atención Multi-Cabeza
La atención multi-cabeza es una de las innovaciones arquitectónicas clave del transformador.
El Aprendizaje Automático Es Geometría Aplicada
El Hilo Conductor
Mira lo que hemos cubierto. Cada concepto importante en aprendizaje automático tiene un núcleo geométrico:
Datos = puntos en espacio de alta dimensión
Características = dimensiones de ese espacio
Similitud = distancia o ángulo entre puntos
Clasificación = encontrando límites geométricos entre clases
Entrenamiento = navegando una superficie de pérdida siguiendo gradientes
Incrustaciones = sistemas de coordenadas aprendidos donde geometría codifica significado
Evaluación = áreas bajo curvas en espacios métricos
Atención = productos punto midiendo alineamiento angular
Esto no es una coincidencia. El aprendizaje automático heredó su marco matemático de álgebra lineal & geometría diferencial — campos que fundamentalmente se tratan sobre espacio, forma & transformación.
Entender la geometría te da algo que memorizar algoritmos no puede: intuición. Cuando tu modelo falla, la vista geométrica sugiere dónde mirar. ¿Las clases no son separables? Mira el límite. ¿El entrenamiento está atrapado? Examina la superficie de pérdida. ¿Las incrustaciones son pobres? Comprueba si elementos similares están geométricamente cercanos. ¿La atención es difusa? Inspecciona las proyecciones de subespacio.
La geometría es la misma si trabajas con 3 dimensiones o 3 mil millones. Las matemáticas escalan. La intuición se transfiere. Esto es lo que hace que la geometría sea el lenguaje universal del aprendizaje automático.
Depuración Geométrica
Hemos cubierto vectores, distancias, límites, entrenamiento, incrustaciones, evaluación & atención — todo a través de la lente de geometría.