un — Geometría del Razonamiento Máquina: III

un

invitado

1 / ?

volver a las lecciones

Límites de Decisión como Hiperplanos

Un clasificador binario asigna cada entrada a una de dos clases. El límite de decisión del clasificador divide el espacio de entrada en dos regiones: una por clase. La geometría de ese límite determina qué patrones puede aprender el clasificador.

Un hiperplano en ℝ^n: el conjunto de todos los puntos x que satisfacen w·x + b = 0, donde w es un vector de pesos en ℝ^n y b es un sesgo escalar. Un hiperplano tiene n−1 dimensiones.

En 2D: un hiperplano es una línea. En 3D: un plano plano. En n-D: un subespacio plano de (n−1)-dimensiones.

Un perceptrón clasifica calculando w·x + b y devuelve la clase 1 si es positivo, la clase 0 si es negativo. Su límite de decisión es un hiperplano.

Separabilidad Lineal

Un conjunto de datos es linealmente separable en ℝ^n si existe un hiperplano que pone todos los puntos de clase-0 en un lado y todos los puntos de clase-1 en el otro. Esta es una propiedad puramente geométrica del conjunto de datos.

Geometría del Límite de Decisión: Separabilidad Lineal & XOR

Probando Separabilidad Lineal

El conjunto de datos de la puerta AND en 2D: puntos de clase-0 en (0,0), (1,0), (0,1); punto de clase-1 en (1,1). Este conjunto de datos es linealmente separable.

El conjunto de datos XOR en 2D: puntos de clase-0 en (0,0) y (1,1); puntos de clase-1 en (1,0) y (0,1). Estas dos clases se encuentran en diagonales opuestas.

Verifica que el conjunto de datos XOR NO es linealmente separable en 2D. Usa un argumento geométrico: explica por qué ninguna línea en el plano 2D puede separar las dos clases. Tu argumento debe hacer referencia a las posiciones de los cuatro puntos y a la propiedad de una línea recta que hace imposible la separación.

Elevación a Dimensiones Superiores

XOR no es linealmente separable en 2D. La solución: mapea los datos a un espacio de mayor dimensionalidad donde se convierte en linealmente separable. Esta es la idea central del truco del kernel.

Mapeo de características: una función φ: ℝ^n → ℝ^m (m > n) que transforma cada punto de entrada en una representación de mayor dimensionalidad.

Para XOR, un mapeo de características útil: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

Esto agrega una tercera dimensión z = x₁ × x₂. Los puntos XOR se transforman en:

- (0,0) → (0, 0, 0), clase 0

- (1,0) → (1, 0, 0), clase 1

- (0,1) → (0, 1, 0), clase 1

- (1,1) → (1, 1, 1), clase 0

En 3D: los puntos de clase-0 están en (0,0,0) y (1,1,1); los puntos de clase-1 están en (1,0,0) y (0,1,0). Ahora encuentra un plano separador.

Plano Separador en 3D

Después del mapeo de características φ(x₁, x₂) = (x₁, x₂, x₁x₂), los datos XOR viven en 3D. Un hiperplano en 3D tiene la ecuación w₁x₁ + w₂x₂ + w₃z + b = 0.

Encuentra un hiperplano w·x + b = 0 en el espacio transformado de 3D que separa correctamente las clases XOR. Verifica tu hiperplano sustituyendo los cuatro puntos transformados. Cada punto de clase-0 debe dar w·x + b < 0 (o > 0) y cada punto de clase-1 debe dar el signo opuesto.

Teorema de Cover: Por Qué Ayudan las Dimensiones Altas

Teorema de Cover (1965): un problema de clasificación complejo proyectado en un espacio de alta dimensionalidad es más probable que sea linealmente separable que en un espacio de baja dimensionalidad, siempre que el espacio no esté densamente poblado.

Enunciado informal: si mapeas n puntos de datos a un espacio de dimensión d >> n, la probabilidad de que un etiquetado aleatorio sea linealmente separable se aproxima a 1.

Versión formal: para n puntos en posición general en ℝ^d, el número de dicotomías linealmente separables (asignaciones de clase) es exactamente 2 × Σ_{k=0}^{d} C(n−1, k) para d < n, e igual a 2^n (todas las dicotomías) para d ≥ n − 1.

Implicación práctica: el mapeo de características φ que eleva XOR a 3D es un caso especial de este principio general. Elevar a dimensiones superiores aumenta la probabilidad de separabilidad. El costo: más parámetros para ajustar, mayor riesgo de sobreajuste.

La Compensación Sesgo-Varianza como Geometría

Límite de decisión de baja dimensionalidad (pocos parámetros): sesgo alto (no puede capturar patrones complejos), varianza baja (estable entre muestras). Límite de alta dimensionalidad (muchos parámetros): sesgo bajo, varianza alta (puede sobreajustar al ruido en los datos de entrenamiento).

Dimensión VC: ¿Qué Tan Expresivo Es un Clasificador?

La dimensión Vapnik-Chervonenkis (VC) de una clase de hipótesis H mide la complejidad de la clase: el número más grande de puntos que H puede deshacer (clasificar correctamente en todos los 2^n etiquetados posibles).

Perceptrón en ℝ^d: dimensión VC = d + 1. Un hiperplano de d-dimensional puede deshacer d + 1 puntos (en posición general) pero no d + 2.

La dimensión VC determina la complejidad de muestras: para aprender una hipótesis con error de generalización ε con probabilidad 1 − δ, necesitas aproximadamente n ≥ (d × log(1/ε) + log(1/δ)) / ε muestras, donde d es la dimensión VC.

Un perceptrón en ℝ^3 tiene dimensión VC 4. Según el límite de complejidad de muestras VC, ¿aproximadamente cuántas muestras de entrenamiento se necesitan para lograr un error de generalización ε = 0.05 con confianza 1 − δ = 0.95? Usa el límite simplificado n ≥ (d × log(1/ε) + log(1/δ)) / ε con los valores dados. Muestra todos los cálculos.

Límites de Decisión & Límites de Capacidad de la Máquina

La geometría de los límites de decisión se conecta directamente con los límites del razonamiento máquina de Hamming.

Un perceptrón de una capa (clasificador de hiperplano) no puede resolver XOR. Esta fue la crítica de Minsky & Papert a los primeros perceptrones en 1969. El argumento geométrico: XOR no es linealmente separable. La máquina no puede resolverlo, no por falta de poder computacional, sino por una incompatibilidad geométrica fundamental entre la clase de hipótesis y el problema.

La resolución: las redes multicapa pueden representar límites no lineales. Las capas ocultas implementan el mapeo de características φ — elevando los datos a dimensiones superiores donde la separación lineal se vuelve posible. Cada neurona oculta calcula un hiperplano; la combinación de múltiples hiperplanos aproxima curvas.

Esta historia se asigna a la observación de Hamming: cada limitación del razonamiento máquina tiene una estructura geométrica subyacente. La tarea no es argumentar sobre si las máquinas 'pueden pensar' sino identificar las restricciones geométricas y encontrar formas de trabajar alrededor de ellas.

La crítica de Minsky & Papert en 1969 del perceptrón utilizó el argumento de no-separabilidad XOR. Su libro, 'Perceptrones,' casi mata la investigación de redes neuronales durante una década. Pero las redes multicapa resuelven el problema XOR. ¿Qué sugiere esta historia sobre la forma correcta de interpretar una limitación demostrada de un sistema de razonamiento máquina? Específicamente: ¿debería una limitación geométrica demostrada ser entendida como permanente o como contingente a la clase de hipótesis actual? Da una respuesta fundamentada.