un — Geometría del Espacio n-Dimensional

un

invitado

1 / ?

volver a las lecciones

Escala Logarítmica de Factoriales

La aproximación de Stirling convierte un producto en una suma, que es el movimiento fundamental que hace la matemática de n grande tratable:

ln(n!) ≈ n·ln(n) − n + 0.5·ln(2πn)

Esta fórmula surge de aproximar la suma Σ ln(k) para k=1..n mediante la integral de ln(x), luego aplicar la regla del trapecio para acotar el error.

Por Qué Importa Geométricamente

La fórmula del volumen de la esfera n-dimensional implica Γ(n/2 + 1), que para n entero es igual a (n/2)! o productos de medios enteros. Stirling nos permite estimar estos valores para n grande sin calcular cada valor directamente.

La aproximación de Stirling da log(n!) ≈ n·log(n) − n·log(e) en notación base-10, útil para estimaciones de orden de magnitud.

Para n = 10: ln(10!) ≈ 10·2.303 − 10 + 0.5·ln(62.83) ≈ 23.03 − 10 + 2.08 = 15.10 (verdadero: 15.104).

Para n = 100: ln(100!) ≈ 100·4.605 − 100 + 0.5·ln(628.3) ≈ 460.5 − 100 + 3.24 = 363.7 (verdadero: 363.74).

Stirling en n=20

Un cálculo directo: ln(20) ≈ 2.996. ln(2π·20) = ln(125.66) ≈ 4.833.

Calcula ln(20!) usando la fórmula logarítmica de Stirling. Luego estima 20! calculando e^(tu respuesta). Compara con el valor verdadero 20! = 2,432,902,008,176,640,000 ≈ 2.433 × 10^18. Muestra los tres términos.

La Fórmula del Volumen

El volumen de una esfera n-dimensional de radio r:

V_n(r) = C_n · r^n where C_n = π^(n/2) / Γ(n/2 + 1)

Los valores de C_n para n pequeño siguen un patrón usando Γ(1/2) = √π y la fórmula de reducción:

- n=1: C_1 = π^(1/2)/Γ(3/2) = √π/(√π/2) = 2

- n=2: C_2 = π^1/Γ(2) = π/1 = π

- n=3: C_3 = π^(3/2)/Γ(5/2) = π^(3/2)/(3√π/4) = 4π/3

- n=4: C_4 = π²/Γ(3) = π²/2

- n=5: C_5 = π^(5/2)/Γ(7/2) = π^(5/2)/(15√π/8) = 8π²/15

Nota: C_n alcanza su máximo cerca de n=5 (≈ 5.264) y luego disminuye. Para n grande, C_n → 0.

Volumen de Esfera Unitaria vs Dimensión

Máximo en n=5

C_5 = 8π²/15. Con π² ≈ 9.870:

C_5 = 8·9.870/15 = 78.96/15 ≈ 5.264

Para verificar que esto es un máximo: C_6 = π³/6 ≈ 31.006/6 ≈ 5.168. Entonces C_6 < C_5 — el pico ocurrió en n=5.

Verifica que C_4 = π²/2 ≈ 4.935. Luego calcula C_5/C_4 y C_6/C_5. ¿Confirman estas razones un pico entre n=4 y n=6? Muestra tu trabajo.

Fracción del Volumen en las Esquinas

La paradoja de las esquinas cuantificada: ¿qué fracción de un hipercubo unitario n-dimensional [−1,1]^n se encuentra fuera de la esfera inscrita de radio 1?

Corner fraction = 1 − C_n / 2^n

Paradoja de las Esquinas

| n | C_n | 2^n | Fracción de esfera | Fracción de esquinas | |---|---|---|---|---| | 2 | 3.14 | 4 | 78.5% | 21.5% | | 3 | 4.19 | 8 | 52.4% | 47.6% | | 4 | 4.93 | 16 | 30.8% | 69.2% | | 5 | 5.26 | 32 | 16.4% | 83.6% | | 6 | 5.17 | 64 | 8.1% | 91.9% | | 10 | 2.55 | 1024 | 0.25% | 99.75% |

Para n=8, C_8 = π⁴/24 ≈ 4.059. Calcula la fracción de esquinas. Luego interpreta: si dibujas 1000 muestras aleatorias uniformes del hipercubo unitario 8-dimensional, ¿cuántas esperas que caigan dentro de la esfera inscrita?

Implicaciones para la Optimización

La paradoja de las esquinas tiene consecuencias directas para la optimización en espacios de alta dimensión:

La búsqueda aleatoria falla. Un punto aleatorio en el espacio de parámetros n-dimensional casi con seguridad cae en una esquina — lejos del origen, con valores de parámetros extremos. Si las buenas soluciones se agrupan cerca de valores de parámetros moderados, la búsqueda aleatoria casi nunca las encontrará.

El descenso de gradiente tiene éxito. Siguiendo el gradiente local, navegas la geometría sistemáticamente en lugar de muestrearla ciegamente. La maldición de la dimensionalidad afecta los métodos aleatorios; los métodos estructurados se adaptan.

La distancia se concentra. En dimensiones altas, todas las distancias por pares entre puntos aleatorios se concentran alrededor del mismo valor: todas se vuelven aproximadamente √(2n/3) para puntos uniformes en [0,1]^n. Los métodos de vecino más cercano se descomponen porque 'más cercano' y 'más lejano' se vuelven indistinguibles.

La prescripción de Hamming: entiende la geometría antes de confiar en tu intuición. En espacios de alta dimensión, la geometría es contra intuitiva, y las matemáticas son la única guía confiable.

Una red neuronal tiene 10,000 parámetros de peso. Cada peso se inicializa uniformemente en [−1, 1]. La paradoja de las esquinas nos dice que esencialmente ninguno de estos puntos de inicialización se encuentra dentro de la esfera unitaria 10,000-dimensional. Sin embargo, las redes neuronales se entrenan exitosamente con inicialización aleatoria. ¿Qué nos dice esto sobre la geometría del paisaje de pérdida, y qué rompe la analogía entre 'buena inicialización' y 'esfera unitaria'?