English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

гість
1 / ?
назад до уроків

Логарифмічна шкала факторіалів

Наближення Стерлінга перетворює добуток у суму, що є фундаментальним ходом, який робить математику для великих n керованою:

ln(n!) ≈ n·ln(n) − n + 0.5·ln(2πn)

Ця формула виникає з наближення суми Σ ln(k) для k=1..n інтегралом від ln(x), а потім застосування правила трапеції для обмеження похибки.

Чому це важливо геометрично

Формула об'єму n-вимірної сфери залежить від Γ(n/2 + 1), яка для цілого n дорівнює (n/2)! або добуткам половинних цілих чисел. Наближення Стерлінга дозволяє нам оцінити це для великих n без прямого обчислення кожного значення.

Наближення Стерлінга дає log(n!) ≈ n·log(n) − n·log(e) у записі з основою 10, корисне для оцінок порядку величини.

Для n = 10: ln(10!) ≈ 10·2.303 − 10 + 0.5·ln(62.83) ≈ 23.03 − 10 + 2.08 = 15.10 (істинне: 15.104).

Для n = 100: ln(100!) ≈ 100·4.605 − 100 + 0.5·ln(628.3) ≈ 460.5 − 100 + 3.24 = 363.7 (істинне: 363.74).

Наближення Стерлінга при n=20

Прямий розрахунок: ln(20) ≈ 2.996. ln(2π·20) = ln(125.66) ≈ 4.833.

Обчисліть ln(20!) за логарифмічною формулою Стерлінга. Потім оцініть 20!, взявши e^(ваша відповідь). Порівняйте з істинним значенням 20! = 2,432,902,008,176,640,000 ≈ 2.433 × 10^18. Покажіть усі три доданки.

Формула об'єму

Об'єм n-вимірної сфери радіуса r:

V_n(r) = C_n · r^n де C_n = π^(n/2) / Γ(n/2 + 1)

Значення C_n для малих n слідують закономірності, використовуючи Γ(1/2) = √π та формулу редукції:

- n=1: C_1 = π^(1/2)/Γ(3/2) = √π/(√π/2) = 2

- n=2: C_2 = π^1/Γ(2) = π/1 = π

- n=3: C_3 = π^(3/2)/Γ(5/2) = π^(3/2)/(3√π/4) = 4π/3

- n=4: C_4 = π²/Γ(3) = π²/2

- n=5: C_5 = π^(5/2)/Γ(7/2) = π^(5/2)/(15√π/8) = 8π²/15

Зауважте: C_n досягає піку біля n=5 (≈ 5.264), потім зменшується. Для великих n, C_n → 0.

Unit Sphere Volume vs Dimension

Максимум при n=5

C_5 = 8π²/15. З π² ≈ 9.870:

C_5 = 8·9.870/15 = 78.96/15 ≈ 5.264

Щоб перевірити, що це максимум: C_6 = π³/6 ≈ 31.006/6 ≈ 5.168. Отже, C_6 < C_5 — піку досягнуто при n=5.

Перевірте, що C_4 = π²/2 ≈ 4.935. Потім обчисліть C_5/C_4 та C_6/C_5. Чи підтверджують ці співвідношення піку між n=4 та n=6? Покажіть свою роботу.

Частка об'єму в кутах

Парадокс кута у кількісному вираженні: яка частка n-вимірного одиничного гіперкуба [−1,1]^n лежить поза вписаною сферою радіуса 1?

Corner fraction = 1 − C_n / 2^n

Corner Paradox

| n | C_n | 2^n | Частка сфери | Частка кута | |---|---|---|---|---| | 2 | 3.14 | 4 | 78.5% | 21.5% | | 3 | 4.19 | 8 | 52.4% | 47.6% | | 4 | 4.93 | 16 | 30.8% | 69.2% | | 5 | 5.26 | 32 | 16.4% | 83.6% | | 6 | 5.17 | 64 | 8.1% | 91.9% | | 10 | 2.55 | 1024 | 0.25% | 99.75% |

Для n=8, C_8 = π⁴/24 ≈ 4.059. Обчисліть частку кута. Потім інтерпретуйте: якщо ви малюєте 1000 рівномірно розподілених випадкових вибірок з 8-вимірного одиничного гіперкуба, скільки з них ви очікуєте, що впадуть всередину вписаної сфери?

Наслідки для оптимізації

Парадокс кута має прямі наслідки для оптимізації у високовимірних просторах:

Випадковий пошук не вдається. Точка, вибрана випадково у n-вимірному просторі параметрів, майже напевно впаде в кут — далеко від походження, з екстремальними значеннями параметрів. Якщо хороші рішення скупчуються біля помірних значень параметрів, випадковий пошук майже ніколи їх не знайде.

Градієнтний спуск працює. Дотримуючись локального градієнта, ви навігуєте геометрію систематично, а не вибірку сліпо. Прокляття розмірності вражає випадкові методи; структуровані методи адаптуються.

Відстань концентрується. У високих вимірах усі попарні відстані між випадковими точками концентруються навколо однакового значення: вони все стають приблизно √(2n/3) для точок, рівномірно розподілених у [0,1]^n. Методи найближчого сусіда розпадаються, оскільки «найближчий» та «найдальший» стають невідрізними.

Розпорядження Еммінга: розумійте геометрію, перш ніж довіряти своїй інтуїції. У високовимірних просторах геометрія є контринтуїтивною, а математика — єдиним надійним керівництвом.

Нейронна мережа має 10 000 параметрів ваги. Кожна вага ініціалізована рівномірно у [−1, 1]. Парадокс кута говорить нам, що в основному жодна з цих точок ініціалізації не лежить всередину одиничної 10 000-вимірної сфери. Однак нейронні мережі успішно навчаються з випадкової ініціалізації. Що це говорить нам про геометрію ландшафту втрат, і що розбиває аналогію між «хорошою ініціалізацією» та «одиничною сферою»?