un — Geometria do Espaço n-Dimensional

Escala Logarítmica de Fatoriais

A aproximação de Stirling converte um produto em uma soma, que é o movimento fundamental que torna a matemática para n grande tratável:

ln(n!) ≈ n·ln(n) − n + 0.5·ln(2πn)

Esta fórmula surge de aproximar a soma Σ ln(k) para k=1..n pela integral de ln(x), então aplicar a regra do trapézio para limitar o erro.

Por Que Importa Geometricamente

A fórmula do volume da esfera n-dimensional envolve Γ(n/2 + 1), que para n inteiro é igual a (n/2)! ou produtos de meio-inteiros. Stirling nos permite estimar esses valores para n grande sem computar cada valor diretamente.

A aproximação de Stirling fornece log(n!) ≈ n·log(n) − n·log(e) em notação de base-10, útil para estimativas de ordem de magnitude.

Para n = 10: ln(10!) ≈ 10·2.303 − 10 + 0.5·ln(62.83) ≈ 23.03 − 10 + 2.08 = 15.10 (verdadeiro: 15.104).

Para n = 100: ln(100!) ≈ 100·4.605 − 100 + 0.5·ln(628.3) ≈ 460.5 − 100 + 3.24 = 363.7 (verdadeiro: 363.74).

Stirling em n=20

Um cálculo direto: ln(20) ≈ 2.996. ln(2π·20) = ln(125.66) ≈ 4.833.

Calcule ln(20!) usando a fórmula logarítmica de Stirling. Então estime 20! tomando e^(sua resposta). Compare com o valor verdadeiro 20! = 2.432.902.008.176.640.000 ≈ 2.433 × 10^18. Mostre os três termos.

A Fórmula do Volume

O volume de uma esfera n-dimensional de raio r:

V_n(r) = C_n · r^n where C_n = π^(n/2) / Γ(n/2 + 1)

Os valores de C_n para n pequeno seguem um padrão usando Γ(1/2) = √π e a fórmula de redução:

- n=1: C_1 = π^(1/2)/Γ(3/2) = √π/(√π/2) = 2

- n=2: C_2 = π^1/Γ(2) = π/1 = π

- n=3: C_3 = π^(3/2)/Γ(5/2) = π^(3/2)/(3√π/4) = 4π/3

- n=4: C_4 = π²/Γ(3) = π²/2

- n=5: C_5 = π^(5/2)/Γ(7/2) = π^(5/2)/(15√π/8) = 8π²/15

Observe: C_n atinge o pico perto de n=5 (≈ 5.264) e depois diminui. Para n grande, C_n → 0.

Unit Sphere Volume vs Dimension

Máximo em n=5

C_5 = 8π²/15. Com π² ≈ 9.870:

C_5 = 8·9.870/15 = 78.96/15 ≈ 5.264

Para verificar que este é um máximo: C_6 = π³/6 ≈ 31.006/6 ≈ 5.168. Então C_6 < C_5 — o pico ocorreu em n=5.

Verifique que C_4 = π²/2 ≈ 4.935. Então calcule C_5/C_4 e C_6/C_5. Essas razões confirmam um pico entre n=4 e n=6? Mostre seu trabalho.

Fração do Volume nos Cantos

O paradoxo do canto quantificado: que fração de um hipercubo unitário n-dimensional [−1,1]^n fica fora da esfera inscrita de raio 1?

Corner fraction = 1 − C_n / 2^n

Corner Paradox

| n | C_n | 2^n | Fração da Esfera | Fração do Canto | |---|---|---|---|---| | 2 | 3.14 | 4 | 78.5% | 21.5% | | 3 | 4.19 | 8 | 52.4% | 47.6% | | 4 | 4.93 | 16 | 30.8% | 69.2% | | 5 | 5.26 | 32 | 16.4% | 83.6% | | 6 | 5.17 | 64 | 8.1% | 91.9% | | 10 | 2.55 | 1024 | 0.25% | 99.75% |

Para n=8, C_8 = π⁴/24 ≈ 4.059. Calcule a fração do canto. Então interprete: se você desenhar 1000 amostras aleatórias uniformes do hipercubo unitário 8-dimensional, quantas você espera que caiam dentro da esfera inscrita?

Implicações para Otimização

O paradoxo do canto tem consequências diretas para otimização em espaços de alta dimensão:

A busca aleatória falha. Um ponto aleatório no espaço de parâmetros n-dimensional quase certamente cai em um canto — longe da origem, com valores de parâmetros extremos. Se boas soluções se agrupam perto de valores moderados de parâmetros, a busca aleatória quase nunca as encontrará.

A descida de gradiente funciona. Ao seguir o gradiente local, você navega a geometria sistematicamente em vez de amostrar cegamente. A maldição da dimensionalidade afeta métodos aleatórios; métodos estruturados se adaptam.

A distância se concentra. Em dimensões altas, todas as distâncias aos pares entre pontos aleatórios se concentram em torno do mesmo valor: elas todas se tornam aproximadamente √(2n/3) para pontos uniformes em [0,1]^n. Os métodos de vizinho mais próximo falham porque 'mais próximo' e 'mais distante' se tornam indistinguíveis.

A prescrição de Hamming: entenda a geometria antes de confiar em sua intuição. Em espaços de alta dimensão, a geometria é contra-intuitiva, e a matemática é o único guia confiável.

Uma rede neural tem 10.000 parâmetros de peso. Cada peso inicializado uniformemente em [−1, 1]. O paradoxo do canto nos diz que essencialmente nenhum desses pontos de inicialização fica dentro da esfera unitária 10.000-dimensional. Ainda assim, as redes neurais treinam com sucesso a partir de inicialização aleatória. Isso nos diz sobre a geometria da paisagem de perda, e o que quebra a analogia entre 'boa inicialização' e 'esfera unitária'?