Dane Żyją w Przestrzeni Geometrycznej
Wszystko Jest Wektorem
W uczeniu maszynowym dane żyją w przestrzeni geometrycznej. Każdy punkt danych z N cechami to punkt w N-wymiarowej przestrzeni. To nie metafora — to dosłowna matematyczna podstawa każdego algorytmu.
Obraz ręcznie napisanej cyfry (28×28 pikseli) to punkt w 784-wymiarowej przestrzeni. Każdy piksel to jedna współrzędna. Dwie podobnie wyglądające cyfry to punkty blisko siebie w tej przestrzeni. Dwie różne cyfry są daleko od siebie.
Osadzenie słowa mapuje słowo na punkt w 300-wymiarowej przestrzeni. Słowa o podobnym znaczeniu lądują w sąsiedztwie. 'Pies' i 'szczeniak' są blisko. 'Pies' i 'parlament' są daleko.
Profil użytkownika z 50 cechami (wiek, historia zakupów, wzorce kliknięć) to punkt w 50-wymiarowej przestrzeni. Systemy rekomendacyjne znajdują użytkowników, którzy są 'blisko' w tej przestrzeni, i sugerują to, co lubili ich geometryczni sąsiedzi.
Geometria to sposób, w jaki rozumujemy o tych przestrzeniach. Odległość, kierunek, kąt, projekcja — to są fundamentalne operacje uczenia maszynowego.
Operacje Wektorowe — Klocki Budowlane
Iloczyn Skalarny Napędza Wszystko
Trzy operacje wektorowe są najważniejsze w uczeniu maszynowym:
Dodawanie wektorów — łączenie cech lub sygnałów. Jeśli dodasz dwa wektory słów, otrzymasz wektor reprezentujący oba pojęcia zmieszane razem.
Mnożenie skalarne — skalowanie wektora zmienia jego wielkość bez zmiany kierunku. Szybkości uczenia w gradient descent to mnożniki skalarne.
Iloczyn skalarny — to siła robocza. Iloczyn skalarny dwóch wektorów a i b równa się |a||b|cos(θ), gdzie θ to kąt między nimi. Gdy wektory są znormalizowane (jednostkowa długość), iloczyn skalarny JEST cosinusem kąta.
Podobieństwo cosinusowe = cos(θ) = (a·b) / (|a||b|)
Ta jedna formuła napędza:
- Wyszukiwarki — znalezienie dokumentów podobnych do zapytania
- Mechanizmy uwagi — decydowanie, które tokeny są dla siebie ważne
- Systemy rekomendacyjne — dopasowywanie profili użytkowników do profili produktów
- Retrieval-augmented generation — znalezienie istotnego kontekstu dla modeli językowych
cos(θ) = 1 oznacza, że wektory wskazują dokładnie w tym samym kierunku (identyczne znaczenie). cos(θ) = 0 oznacza, że są prostopadłe (niezwiązane). cos(θ) = -1 oznacza, że wskazują w przeciwnych kierunkach (przeciwne znaczenie).
Podobieństwo Cosinusowe
Podobieństwo cosinusowe to jedna z najczęściej używanych metryk w nowoczesnych systemach uczenia maszynowego.
Trzy Sposoby Pomiaru Odległości
Wybór Metryki Odległości Zmienia Znaczenie 'Podobnego'
Biorąc pod uwagę dwa punkty w przestrzeni, istnieje wiele sposobów pomiaru 'odległości' między nimi. Każda metryka definiuje inną geometrię, a ta geometria określa, co Twój model uważa za 'podobne'.
Odległość euklidesowa (L2) — odległość w linii prostej. d = √(Σ(aᵢ - bᵢ)²). To odległość 'jak leci kruk' — ta, której intuicyjnie się spodziewasz. Traktuje wszystkie wymiary równomiernie i jest wrażliwa na wielkość.
Odległość Manhattan (L1) — odległość chodzenia po siatce. d = Σ|aᵢ - bᵢ|. Jak poruszanie się po blokach miasta — możesz tylko poruszać się wzdłuż osi, nigdy po przekątnej. Bardziej odporna na wartości odstające w pojedynczych wymiarach, ponieważ nie podnosi różnic do kwadratu.
Odległość cosinusowa — mierzy kąt między wektorami, całkowicie ignorując wielkość. d = 1 - cos(θ). Dwa dokumenty o tym samym temacie mają małą odległość cosinusową niezależnie od długości. Dwa równie długie dokumenty o różnych tematach mają dużą odległość cosinusową.
Wybór nie jest arbitralny. Jeśli wielkość ma znaczenie (dawka leku, temperatura reaktora), użyj euklidesowej. Jeśli zależy Ci na proporcjach, a nie wartościach bezwzględnych (rozkłady częstotliwości słów, profile preferencji użytkowników), użyj cosinusowej. Jeśli różnice poszczególnych cech mają większe znaczenie niż łączna wielkość (diagnoza błędów, gdzie przebicie jednego czujnika jest znaczące), użyj Manhattan.
K-Najbliższych Sąsiadów — Czysta Geometria
KNN: Najprostszy Algorytm Geometryczny
K-Najbliższych Sąsiadów to najprzejrzystszy algorytm geometryczny w uczeniu maszynowym. Nie ma fazy treningowej — to SĄ dane treningowe.
Aby zaklasyfikować nowy punkt: znajdź K najbliższych punktów w danych treningowych. Pozwól im głosować. Wygrywa większość klasy. To jest cały algorytm.
Granica decyzji, którą produkuje KNN, to diagram Voronoi — partycja przestrzeni, w której każdy punkt należy do regionu swojego najbliższego przykładu treningowego. Granice to prostopadłe dwusieczne między sąsiednimi punktami treningowymi.
Geometryczna intuicja, która ma znaczenie: wybór metryki odległości całkowicie zmienia diagram Voronoi. Odległość euklidesowa produkuje zakrzywione, kołowe granice. Odległość Manhattan produkuje granice w kształcie diamentu. Odległość cosinusowa produkuje kątowe, stożkowate granice.
Te same dane treningowe. Ten sam K. Inna metryka odległości. Zupełnie inny model. Geometria JEST modelem.
Wybór Metryki Odległości
Metryki odległości nie są wymienne — właściwy wybór zależy od tego, co 'podobne' oznacza dla Twoich danych.
Hiperpłaszczyzny — Płaskie Granice w Wysokich Wymiarach
Każdy Klasyfikator Liniowy Znajduje Hiperpłaszczyznę
Klasyfikator liniowy znajduje płaską powierzchnię, która oddziela dwie klasy. Wymiarowość tej powierzchni zależy od przestrzeni:
- W przestrzeni 2D, granica to linia (1-wymiarowa)
- W przestrzeni 3D, granica to płaszczyzna (2-wymiarowa)
- W przestrzeni 784D (obrazy cyfr MNIST), granica to hiperpłaszczyzna 783-wymiarowa
Ogólny wzorzec: w N-wymiarowej przestrzeni, granica decyzji to (N-1)-wymiarowa płaska powierzchnia zwana hiperpłaszczyną.
Regresja logistyczna, maszyny wektorów nośnych i perceptrony jednowarstwowe to wszystkie pierwowzory hiperpłaszczyzny. Różnią się tym, JAK znajdują najlepszą hiperpłaszczyznę:
- Regresja logistyczna maksymalizuje prawdopodobieństwo poprawnej klasyfikacji
- SVM maksymalizuje margines geometryczny — odległość od hiperpłaszczyzny do najbliższych punktów danych
- Perceptrony po prostu znajdują dowolną hiperpłaszczyznę, która oddziela dane, bez gwarancji optymalności
Wektor wag klasyfikatora liniowego JEST normalnym wektorem hiperpłaszczyzny. Termin odchylenia przesuwa hiperpłaszczyznę z dala od pochodzenia. To są obiekty geometryczne z interpretacjami geometrycznymi.
Poza Płaskimi Granicami
Gdy Dane Nie Są Liniowo Separowalne
Wiele rzeczywistych problemów nie może być rozwiązanych za pomocą płaskiej granicy. Rozważ klasyfikowanie obrazów kotów vs psów — żadna pojedyncza hiperpłaszczyzna w przestrzeni pikseli ich nie oddziela czystą.
Istnieją dwie geometryczne strategie:
Strategia 1: Sztuczka jądra — Przekształć dane w wyżej-wymiarową przestrzeń, w której SĄ liniowo separowalne. Klasyczny przykład: punkty wewnątrz koła (klasa A) i punkty na zewnątrz (klasa B) w 2D. Żadna linia ich nie oddziela. Ale dodaj trzeci wymiar z = x² + y², a punkty wewnętrzne (małe x² + y²) siedlą nisko, a punkty zewnętrzne (duże x² + y²) siedlą wysoko. Teraz płaska płaszczyzna je doskonale oddziela.
SVM z funkcjami jądra to robią niejawnie — obliczają iloczyny skalarne w wyżej-wymiarowej przestrzeni bez kiedykolwiek konstruowania rzeczywistych wektorów wysokowymiarowych. Nazywa się to 'sztuczką jądra' i to jest czysta geometryczna intuicja.
Strategia 2: Sieci neuronowe — Ułóż transformacje liniowe z funkcjami aktywacji nieliniowych. Każda warstwa stosuje transformację liniową (mnożenie macierzy = rotacja + skalowanie + ścinanie) po której następuje nieliniowe 'zagięcie' (ReLU, sigmoid, tanh). Kompozycja wielu operacji liniowo-a-następnie-zagięcie może przybliżyć dowolny kształt granicy ciągłej.
Głęboką sieć neuronową to sekwencja transformacji geometrycznych, które wypaczają przestrzeń wejściową, dopóki klasy nie będą liniowo separowalne w ostatniej warstwie.
Oddzielanie Danych Kołowych
To jeden z najważniejszych geometrycznych problemów w uczeniu maszynowym.
Powierzchnia Straty
Trening = Chodzenie w Dół po Powierzchni
Każdy model uczenia maszynowego ma parametry — wagi i odchylenia. Funkcja straty mierzy, jak bardzo błędne są predykcje modelu. Razem definiują powierzchnię straty: krajobraz, w którym każdy punkt odpowiada zestawowi wartości parametrów, a wysokość to strata.
Dla modelu z 2 parametrami, powierzchnia straty to 3D krajobraz, który możesz wizualizować — wzgórza, doliny i równiny. Dla modelu z 175 miliardami parametrów (jak GPT-3), powierzchnia straty istnieje w 175-miliardowym wymiarowym, a matematyka jest identyczna.
Gradient descent to algorytm, który nawiguje po tej powierzchni. Gradient to obiekt geometryczny — wektor wskazujący w kierunku największego wzniosu. Aby zmniejszyć stratę, poruszaj się w przeciwnym kierunku: ujemny gradient. To dosłownie chodzenie w dół.
Szybkość uczenia kontroluje rozmiar kroku. Zbyt duża i przeleciałeś doliny. Zbyt mała i czołgasz się. Gradient mówi Ci kierunek; szybkość uczenia mówi Ci, jak daleko krocz.
Punkty Siodłowe, Minima i Geometria Wysokich Wymiarów
Powierzchnia Straty Nie Jest Prostą Miską
Naiwny obraz treningu wyobraża sobie gładką miskę z jednym najniższym punktem. Rzeczywistość jest znacznie bardziej złożona:
Lokalne minima — doliny, które nie są najgłębsze. Gradient descent może tu się utknąć, zadowolony, że każdy kierunek idzie w górę, nawet jeśli głębsza dolina istnieje gdzie indziej.
Punkty siodłowe — ukształtowane jak siodło konia. Strata krzywa się w dół w niektórych wymiarach i w górę w innych. W 2D to jest rzadkie. W wysokich wymiarach, punkty siodłowe są wykładniczo bardziej powszechne niż lokalne minima. Krytyczny punkt w 1000-wymiarowej przestrzeni musi krzywiać się w górę we WSZYSTKICH 1000 wymiarach, aby być lokalnym minimum. Jeśli nawet jeden wymiar krzywa się w dół, to punkt siodłowy.
Płaskie plateay — regiony, gdzie gradient jest bliska zeru. Trening stagnuje, ponieważ nie ma nachylenia do naśladowania.
Ostre vs płaskie minima — ostre minimum to wąska dolina. Płaskie minimum to szeroka dolina. Badania sugerują, że płaskie minima lepiej generalizują do niewidocznych danych, ponieważ małe perturbacje parametrów (z szumu w nowych danych) nie dramatycznie zmieniają stratę.
SGD z pędem pomaga w ucieczce z punktów siodłowych i ostrych minimów. Losowość stochastycznego spadku gradientu działa jak trzęsienie piłki na powierzchni — odbija się z wąskich pułapek i znajduje szersze, płaskie doliny.
SGD vs Gradient Descent Pełną Partią
To jedna z najważniejszych praktycznych intuicji w treningu uczenia maszynowego.
Słowa Jako Wektory — Arytmetyka Semantyczna
Znaczenie Ma Kierunek
Word2Vec, GloVe i nowoczesne osadzenia transformatorów mapują dyskretne tokeny (słowa, podslowa) na ciągłe przestrzenie wektorowe. Wynikiem jest geometryczny świat, w którym znaczenie ma współrzędne.
Słynny przykład: king - man + woman ≈ queen
To jest arytmetyka wektorowa. Wektor od 'man' do 'king' reprezentuje koncepcję 'królewskość stosowana do mężczyzny'. Wektor od 'woman' do 'queen' reprezentuje 'królewskość stosowana do kobiety'. Te wektory są w przybliżeniu równoległe — ten sam kierunek, ta sama relacja, różne punkty startowe.
Inne geometryczne relacje, które wyłaniają się z treningu na tekście:
- Paryż - Francja + Włochy ≈ Rzym (relacja stolica-z)
- szedł - chodzić + pływać ≈ pływał (transformacja czasu przeszłego)
- większy - duży + mały ≈ mniejszy (forma porównawcza)
Nikt nie programował tych relacji. Model odkrył, że znaczenie ma strukturę geometryczną, czytając miliardy słów. Kierunki w przestrzeni osadzenia odpowiadają relacjom semantycznym. To jedna z najgłębszych geometrycznych odkryć w uczeniu maszynowym.
Hipoteza Rozmaitości
Wysokowymiarowe Dane Żyją na Powierzchniach Niskowymiarowych
Obraz 64×64 twarzy w skali szarości ma 4096 wartości pikseli — to punkt w 4096-wymiarowej przestrzeni. Ale nie każdy punkt w tej przestrzeni to ważna twarz. Większość losowych 4096-wymiarowych wektorów wygląda jak szum statyczny, a nie twarze.
Hipoteza rozmaitości stwierdza, że rzeczywiste, wysokowymiarowe dane faktycznie żyją na lub blisko niskowymiarowych zakrzywionych powierzchni (rozmaitości) osadzonych w przestrzeni wysokowymiarowej. Rozmaitość twarzy może być tylko 50-wymiarowa — sparametryzowana przez czynniki takie jak kąt oświetlenia, ułożenie głowy, wyrażenie, ton skóry, wiek.
To jest geometryczne twierdzenie z praktycznymi konsekwencjami:
- Redukcja wymiarowości (PCA, t-SNE, UMAP) działa, ponieważ dane są w przybliżeniu niskowymiarowe. Te algorytmy znajdują rozmaitość i rzutują na nią.
- Autokodery uczą się kompresować dane w niskowymiarową latentną przestrzeń (rozmaitość) i rekonstruować z niej.
- Modele generatywne (VAE, modele dyfuzji) uczą się rozmaitości i próbują nowe punkty na niej — generując nowe twarze, nową muzykę, nowy tekst, który wygląda rzeczywiście, ponieważ leży na nauczanej rozmaitości.
Gdy Twój model nie generalizuje, jedna geometryczna wyjaśnienie to: nauczył się złej rozmaitości. Dane treningowe wytyczyły powierzchnię, która nie pasuje do rzeczywistego rozkładu danych.
Analogie Wektorowe
Geometryczna struktura przestrzeni osadzenia to jeden z najbardziej zaskakujących rezultatów w nowoczesnym uczeniu maszynowym.
Krzywe ROC — Jakość Klasyfikacji Jako Obszar
Metryki Oceny Żyją w Geometrycznych Przestrzeniach
Krzywa ROC (Charakterystyka Operacyjna Odbiornika) wykreśla Tempo Pozytywne Prawdziwe (oś Y) względem Tempo Pozytywne Fałszywe (oś X), gdy przesuwasz próg klasyfikacji od 0 do 1.
To jest geometryczna przestrzeń ze znaczącymi punktami orientacyjnymi:
- (0, 1) — lewy górny róg — idealna klasyfikacja. Każda pozytywna wykryta, zero fałszywych alarmów.
- (0, 0) — lewy dolny — model klasyfikuje wszystko jako negatywne.
- (1, 1) — prawy górny — model klasyfikuje wszystko jako pozytywne.
- Diagonalna od (0,0) do (1,1) — losowy klasyfikator. Na każdym progu ma równe tempa pozytywne prawdziwe i pozytywne fałszywe.
AUC (Obszar Pod Krzywą) to dosłownie pomiar geometrycznego obszaru. AUC = 0,5 oznacza, że model jest losowy (obszar pod przekątną). AUC = 1,0 oznacza doskonałą klasyfikację (cały jednostkowy kwadrat). Dobry model ma krzywa ROC wyginającą się do lewego górnego rogu, zaścielającą więcej obszaru.
AUC ma piękną interpretację probabilistyczną: równa się to prawdopodobieństwo, że model punktuje losowy przykład pozytywny wyżej niż losowy przykład negatywny. Ale geometrycznie, to po prostu obszar — a ta geometryczna prostota to to, co czyni go intuicyjnym.
Przestrzeń Precyzji-Przypomnienia
Inny Geometryczny Kompromis
Krzywe precyzji-przypomnienia żyją w innej geometrycznej przestrzeni niż krzywe ROC, i opowiadają inną historię.
Precyzja = ze wszystkiego, co model oznaczy pozytywnie, jaki ułamek był rzeczywiście pozytywny?
Przypomnienie = ze wszystkich rzeczywistych pozytywów, jaki ułamek model znalazł?
Gdy obniżasz próg klasyfikacji (flagujesz więcej rzeczy jako pozytywne), przypomnienie rośnie (łapiesz więcej rzeczywistych pozytywów), ale precyzja zazwyczaj maleje (łapiesz też więcej fałszywych pozytywów). Ten kompromis śledzi krzywą w przestrzeni precyzji-przypomnienia.
Wynik F1 = 2 × (precyzja × przypomnienie) / (precyzja + przypomnienie) — średnia harmoniczna. Geometrycznie, wynik F1 równa się punktowi na krzywej precyzji-przypomnienia, gdzie precyzja równa się przypomnieniu. To gdzie krzywa przecina przekątną kwadratu precyzji-przypomnienia.
Średnia Precyzja (AP) = obszar pod krzywą precyzji-przypomnienia. Jak AUC-ROC, sumaryzuje całą krzywą do jednej liczby, która reprezentuje geometryczny obszar.
Krzywe ROC i krzywe precyzji-przypomnienia są komplementarnymi geometrycznymi widokami tego samego modelu. Krzywe ROC mogą być wprowadzającą w błąd optymistycznymi na niezrównoważonych zestawach danych (99% klasa negatywna). Krzywe precyzji-przypomnienia pozostają pouczające, ponieważ skupiają się na klasie pozytywnej.
Interpretacja AUC-ROC
Zrozumienie geometrycznego znaczenia AUC-ROC pomaga Ci wybrać między modelami.
Transformatory — Iloczyny Skalarne Jako Uwaga
Uwaga Jest Geometryczną Miarą Podobieństwa
Architektura transformatora — fundament nowoczesnych modeli języka — zbudowana jest na geometrycznej operacji: iloczynie skalarnym.
Dla każdego tokenu w sekwencji, transformator oblicza trzy wektory: Zapytanie (Q), Klucz (K) i Wartość (V), każdy uzyskany przez pomnożenie osadzenia wejściowego przez nauczane macierze wag.
Wynik uwagi między dwoma tokenami to: wynik = Q · K^T / √d
To jest skalowany iloczyn skalarny — geometryczna miara podobieństwa. Gdy Q i K wskazują w tym samym kierunku (mały kąt między nimi), iloczyn skalarny jest duży: ten klucz jest wysoce istotny dla tego zapytania. Gdy są prostopadłe, iloczyn skalarny to zero: nieistotny.
Wyniki są przekazane przez softmax, aby utworzyć rozkład prawdopodobieństwa: wagi uwagi, które sumują się do 1. Wynik to ważona suma wektorów Wartości, gdzie wagi są określone przez geometryczne wyrównanie.
W zdaniu takim jak 'Kot siedział na macie, ponieważ był zmęczony,' uwaga oblicza: dla słowa 'był,' które inne słowa mają najbardziej geometryczne wyrównanie? Jeśli wektor Q dla 'był' wyrównuje się najlepiej z wektorem K dla 'kota,' model zwraca uwagę na 'kota' — rozwiązując odniesienie zaimka przez geometrię.
Uwaga Wielogłowicowa — Wiele Geometrycznych Perspektyw
Dlaczego Wiele Głów?
Samouwaga z jednym zestawem macierzy Q, K, V oblicza jeden typ geometrycznego wyrównania. Ale język ma wiele typów relacji — składniowych, semantycznych, pozycyjnych, referencyjnych.
Uwaga wielogłowicowa używa wielu zestawów macierzy projekcji Q, K, V, każda rzutuje w inną podprzestrzeń osadzenia. Każda głowa mierzy wyrównanie w swojej własnej geometrycznej podprzestrzeni.
Co badacze obserwują, gdy sprawdzają głowy uwagi:
- Głowa 1 może zwrócić uwagę na poprzednie słowo (bliskość pozycyjna)
- Głowa 2 może zwrócić uwagę na czasownik z podmiotu (zależność składniowa)
- Głowa 3 może zwrócić uwagę na semantycznie związane słowa wcześniej w kontekście
- Głowa 4 może zwrócić uwagę na najnowszą rzeczownik (koreferencyjalność)
Każda głowa to inny geometryczny obiektyw na te same dane. Projekcje obracają i skalują przestrzeń osadzenia inaczej, czyniąc różne relacje widocznymi poprzez wyrównanie.
To dlatego transformatory przewyższają modele z jednym mechanizmem uwagi. Pojedynczy iloczyn skalarny w pełnej przestrzeni osadzenia przechwytuje jedną noację podobieństwa. Wielokrotne iloczyny skalarne w różnych podprzestrzeniach jednocześnie przechwytują wiele, komplementarnych noacji.
Uwaga Wielogłowicowa
Uwaga wielogłowicowa to jedna z kluczowych architektonicznych innowacji transformatora.
Uczenie Maszynowe Jest Stosowaną Geometrią
Łączący Wątek
Spójrz na to, co omówiliśmy. Każda główna koncepcja w uczeniu maszynowym ma geometryczną podstawę:
Dane = punkty w wysokowymiarowej przestrzeni
Cechy = wymiary tej przestrzeni
Podobieństwo = odległość lub kąt między punktami
Klasyfikacja = znalezienie geometrycznych granic między klasami
Trening = nawigowanie po powierzchni straty poprzez następowanie gradientów
Osadzenia = nauczane systemy współrzędnych, gdzie geometria koduje znaczenie
Ocena = obszary pod krzywymi w przestrzeniach metrycznych
Uwaga = iloczyny skalarne mierzące wyrównanie kątowe
To nie przypadek. Uczenie maszynowe odziedziczyło swój matematyczny framework z algebry liniowej i geometrii różniczkowej — dziedzin, które są fundamentalnie o przestrzeni, kształcie i transformacji.
Zrozumienie geometrii daje Ci coś, czego zapamiętywanie algorytmów nie może: intuicję. Gdy Twój model zawiedzie, widok geometryczny sugeruje, gdzie szukać. Czy klasy nie są separowalne? Spójrz na granicę. Czy trening jest zablokowany? Zbadaj krajobraz straty. Czy osadzenia są słabe? Sprawdź, czy podobne elementy są geometrycznie blisko. Czy uwaga jest rozproszona? Zbadaj projekcje podprzestrzeni.
Geometria jest taka sama, czy pracujesz z 3 wymiarami czy 3 miliardami. Matematyka skaluje. Intuicja się transferuje. To dlatego geometria jest uniwersalnym językiem uczenia maszynowego.
Geometryczne Debugowanie
Omówiliśmy wektory, odległości, granice, trening, osadzenia, ocenę i uwagę — wszystko przez obiektyw geometrii.