Data Leeft in Geometrische Ruimte
Alles Is een Vector
In machine learning leven gegevens in geometrische ruimte. Elk gegevenspunt met N kenmerken is een punt in N-dimensionale ruimte. Dit is niet metaphorisch — het is de letterlijke wiskundige fundering van elk algoritme.
Een afbeelding van een handgeschreven cijfer (28×28 pixels) is een punt in 784-dimensionale ruimte. Elke pixel is één coördinaat. Twee gelijkaardige cijfers zijn nabijgelegen punten in die ruimte. Twee verschillende cijfers zijn ver uit elkaar.
Een woordinbedding brengt een woord in kaart naar een punt in 300-dimensionale ruimte. Woorden met vergelijkbare betekenissen eindigen in dezelfde buurt. 'Hond' en 'puppy' liggen dicht bij elkaar. 'Hond' en 'parlement' liggen ver uit elkaar.
Een gebruikersprofiel met 50 kenmerken (leeftijd, aankoopgeschiedenis, klikpatronen) is een punt in 50-dimensionale ruimte. Aanbevelingsmotoren vinden gebruikers die 'dicht bij' in deze ruimte zijn en suggereren wat hun geometrische buren leuk vonden.
Geometrie is hoe wij over deze ruimten nadenken. Afstand, richting, hoek, projectie — dit zijn de fundamentele bewerkingen van machine learning.
Vectorbewerkingen — De Bouwstenen
Het Dotproduct Drijft Alles Aan
Drie vectorbewerkingen zijn het meest belangrijk in machine learning:
Vectoroptelling — kenmerken of signalen combineren. Als je twee woordvectoren optelt, krijg je een vector die beide concepten gemengd vertegenwoordigt.
Scalaire vermenigvuldiging — een vector schalen verandert zijn magnitude zonder zijn richting te veranderen. Leersnelheden in gradiëntafkomst zijn scalaire vermenigvuldigers.
Dotproduct — dit is het werkpaard. Het dotproduct van twee vectoren a en b gelijk |a||b|cos(θ), waarbij θ de hoek ertussen is. Wanneer de vectoren genormaliseerd zijn (eenheidslengte), is het dotproduct GELIJK AAN de cosinus van de hoek.
Cosinusgelijkenis = cos(θ) = (a·b) / (|a||b|)
Deze enkele formule drijft aan:
- Zoekmachines — documenten vinden die vergelijkbaar zijn met een zoekopdracht
- Aandachtsmechanismen — bepalen welke tokens belangrijk zijn voor elkaar
- Aanbevelingsmotoren — gebruikersprofielen matchen met itemprofielen
- Retrieval-augmented generation — relevante context vinden voor taalmodellen
cos(θ) = 1 betekent dat de vectoren exact in dezelfde richting wijzen (identieke betekenis). cos(θ) = 0 betekent dat ze loodrecht staan (niet gerelateerd). cos(θ) = -1 betekent dat ze in tegengestelde richtingen wijzen (tegengestelde betekenis).
Cosinusgelijkenis
Cosinusgelijkenis is één van de meest gebruikte metrieken in moderne machine learning-systemen.
Drie Manieren om Afstand Te Meten
De Keuze van Afstandsmetriek Verandert Wat 'Soortgelijk' Betekent
Gegeven twee punten in ruimte zijn er veel manieren om de 'afstand' ertussen te meten. Elke metriek definieert een ander geometrie, en die geometrie bepaalt wat jouw model 'soortgelijk' beschouwt.
Euclidische afstand (L2) — de rechte-lijnafstand. d = √(Σ(aᵢ - bᵢ)²). Dit is de 'zoals de kraai vliegt' afstand, degene die jouw intuïtie verwacht. Het behandelt alle dimensies gelijk en is gevoelig voor magnitude.
Manhattan-afstand (L1) — de grid-wandelafstand. d = Σ|aᵢ - bᵢ|. Zoals door stadsblokken navigeren — je kunt alleen langs assen bewegen, nooit diagonaal. Robuuster voor uitbijters in enkele dimensies omdat het de verschillen niet kwadraatiseert.
Cosinusafstand — meet de hoek tussen vectoren, magnitude volledig negerend. d = 1 - cos(θ). Twee documenten over hetzelfde onderwerp hebben kleine cosinusafstand, ongeacht lengte. Twee gelijk lange documenten over verschillende onderwerpen hebben grote cosinusafstand.
De keuze is niet willekeurig. Als magnitude belangrijk is (dosis van een medicijn, temperatuur van een reactor), gebruik Euclidisch. Als je zorgt om verhoudingen in plaats van absoluten (woordfrequentieverdelingen, gebruikersvorkeurprofielen), gebruik cosinus. Als individuele kenmerksverschillen meer belangrijk zijn dan totale magnitude (foutdiagnose, waar één sensor pieken zinvol is), gebruik Manhattan.
K-Dichtstbijzijnde Buren — Zuivere Geometrie
KNN: Het Eenvoudigste Geometrische Algoritme
K-Dichtstbijzijnde Buren is het meest transparante geometrische algoritme in machine learning. Het heeft geen trainingsfase — het IS de trainingsgegevens.
Om een nieuw punt te classificeren: vind de K dichtstbijzijnde punten in de trainingsgegevens. Laat ze stemmen. Meerderheidsklasse wint. Dat is het hele algoritme.
De besluitingsgrens die KNN produceert is een Voronoi-diagram — een verdeling van ruimte waarbij elk punt tot de regio van zijn dichtstbijzijnde trainingsvoorbeeld behoort. De grenzen zijn de loodrechte bisectoren tussen aangrenzende trainingspunten.
Hier is het geometrische inzicht dat belangrijk is: de keuze van afstandsmetriek verandert het Voronoi-diagram volledig. Euclidische afstand produceert gekromde, circulaire grenzen. Manhattan-afstand produceert diamantvormige grenzen. Cosinusafstand produceert hoekige, kegelgevormd grenzen.
Dezelfde trainingsgegevens. Dezelfde K. Andere afstandsmetriek. Volledig ander model. De geometrie IS het model.
Een Afstandsmetriek Kiezen
Afstandsmetrieken zijn niet uitwisselbaar — de juiste keuze hangt af van wat 'soortgelijk' betekent voor jouw gegevens.
Hypervlakken — Vlakke Grenzen in Hoge Dimensies
Elk Lineair Classificatieapparaat Vindt een Hypervlak
Een lineair classificatieapparaat vindt een plat oppervlak dat twee klassen scheidt. De dimensionaliteit van dit oppervlak hangt af van de ruimte:
- In 2D-ruimte is de grens een lijn (1-dimensionaal)
- In 3D-ruimte is de grens een vlak (2-dimensionaal)
- In 784D-ruimte (MNIST cijferafbeeldingen) is de grens een 783-dimensionaal hypervlak
Het algemene patroon: in N-dimensionale ruimte is de besluitingsgrens een (N-1)-dimensionaal plat oppervlak genaamd een hypervlak.
Logistische regressie, support vector machines & enkelvoudige perceptrons zijn allemaal hypervlakvinders. Ze verschillen in HOE zij het beste hypervlak vinden:
- Logistische regressie maximaliseert de waarschijnlijkheid van juiste classificatie
- SVMs maximaliseren de geometrische marge — de afstand van het hypervlak tot de dichtstbijzijnde gegevenspunten
- Perceptrons vinden eenvoudig een hypervlak dat de gegevens scheidt, met geen garantie van optimaliteit
De gewichtsvector van een lineair classificatieapparaat IS de normaalvector naar het hypervlak. De biasterm verschuift het hypervlak weg van de oorsprong. Dit zijn geometrische objecten met geometrische interpretaties.
Voorbij Vlakke Grenzen
Wanneer Gegevens Niet Lineair Scheidbaar Zijn
Veel praktijkproblemen kunnen niet opgelost worden met een vlakke grens. Denk aan het classificeren van afbeeldingen van katten tegen honden — geen enkel hypervlak in pixelruimte scheidt ze schoon.
Twee geometrische strategieën bestaan:
Strategie 1: De Kernetruc — Transformeer de gegevens in een hoger-dimensionale ruimte waar het WEL lineair scheidbaar is. Een klassiek voorbeeld: punten binnen een cirkel (klasse A) & punten erbuiten (klasse B) in 2D. Geen lijn scheidt hen. Maar voeg een derde dimensie z = x² + y² toe, & de binnenste punten (kleine x² + y²) zitten laag terwijl de buitenste punten (grote x² + y²) hoog zitten. Nu scheidt een plat vlak hen perfect.
SVMs met kernelfuncties doen dit impliciet — zij berekenen dotproducten in de hoog-dimensionale ruimte zonder ooit de daadwerkelijke hoog-dimensionale vectoren te construeren. Dit wordt de 'kernetruc' genoemd & het is een zuiver geometrisch inzicht.
Strategie 2: Neurale netwerken — Stapel lineaire transformaties met niet-lineaire activatiefuncties. Elke laag voert een lineaire transformatie uit (matrixvermenigvuldiging = rotatie + schaling + afschuiving) gevolgd door een niet-lineaire 'buiging' (ReLU, sigmoid, tanh). De samenstelling van veel lineair-dan-buig bewerkingen kan elke continue grensverandering benaderen.
Een diep neuraal netwerk is een reeks geometrische transformaties die de invoerruimte vervormen tot de klassen lineair scheidbaar worden in de uiteindelijke laag.
Circulaire Gegevens Scheiden
Dit is één van de meest belangrijke geometrische problemen in machine learning.
Het Verliesoppervlak
Training = Bergafwaarts Lopen op een Oppervlak
Elk machine learning-model heeft parameters — gewichten & biases. De verliesfunctie meet hoe verkeerd de voorspellingen van het model zijn. Samen definiëren deze een verliesoppervlak: een landschap waar elk punt overeenkomt met een specifieke set parameterwaarden, & de hoogte is het verlies.
Voor een model met 2 parameters is het verliesooppervlak een 3D-landschap dat je kunt visualiseren — heuvels, dalen & vlakten. Voor een model met 175 miljard parameters (zoals GPT-3) bevindt het verliesooppervlak zich in 175-miljard-dimensionale ruimte. De wiskunde is identiek.
Gradiëntafkomst is het algoritme dat dit oppervlak navigeert. De gradiënt is een geometrisch object — een vector die in de richting van steilste stijging wijst. Om verlies te verminderen, beweeg in de tegengestelde richting: de negatieve gradiënt. Dit is letterlijk bergafwaarts lopen.
De leersnelheid bepaalt stapgrootte. Teveel & je schiet dalen over. Teweinig & je kruipt. De gradiënt zegt je de richting; de leersnelheid zegt je hoe ver je gaat stappen.
Zadelsoorten, Minima, & de Geometrie van Hoge Dimensies
Het Verliesooppervlak Is Geen Eenvoudige Kom
Een naïef beeld van training stelt zich een gladde kom voor met één laagste punt. De werkelijkheid is veel complexer:
Lokale minima — dalen die niet het diepste zijn. Gradiëntafkomst kan hier steken, tevreden dat elke richting omhoog gaat, zelfs hoewel een dieper dal ergens anders bestaat.
Zadelsoorten — vormgegeven als zadel van paard. Het verlies buigt benedenwaarts in sommige dimensies & opwaarts in andere. In 2D is dit zeldzaam. In hoge dimensies zijn zadelsoorten exponentieel meer algemeen dan lokale minima. Een kritiek punt in 1000-dimensionale ruimte moet opwaarts buigen in ALLE 1000 dimensies om een lokaal minimum te zijn. Als zelfs één dimensie bendwaarts buigt, is het een zadelsoort.
Vlakke plateaus — regio's waar de gradiënt dicht bij nul ligt. Training stagneert omdat er geen helling is om te volgen.
Scherpe tegen vlakke minima — een scherp minimum is een smal dal. Een vlak minimum is een breed dal. Onderzoek suggereert dat vlakke minima beter generaliseren naar onzichtbare gegevens, omdat kleine verstoringen van de parameters (van ruis in nieuwe gegevens) het verlies niet dramatisch veranderen.
SGD met momentum helpt zadelsoorten & scherpe minima te ontsnappen. De willekeurigheid van stochastische gradiëntafkomst werkt als schudden van een bal op het oppervlak — het stuitert uit nauwe vallen & vindt bredere, vlakkere dalen.
SGD tegen Volledige-Batch Gradiëntafkomst
Dit is één van de meest belangrijke praktische inzichten in machine learning-training.
Woorden als Vectoren — Semantische Rekenkunde
Betekenis Heeft Richting
Word2Vec, GloVe, & moderne transformator-inbeddingen brengen discrete tokens (woorden, subwoorden) in kaart naar continue vectorruimten. Het resultaat is een geometrische wereld waar betekenis coördinaten heeft.
Het beroemde voorbeeld: king - man + woman ≈ queen
Dit is vectorrekenkunde. De vector van 'man' naar 'king' vertegenwoordigt het concept 'koninklijkheid toegepast op een man.' De vector van 'woman' naar 'queen' vertegenwoordigt 'koninklijkheid toegepast op een vrouw.' Deze vectoren zijn ongeveer parallel — dezelfde richting, dezelfde relatie, verschillende startpunten.
Andere geometrische relaties die voortkomen uit training op tekst:
- Paris - France + Italy ≈ Rome (hoofdstad-van relatie)
- walked - walk + swim ≈ swam (verleden tijd transformatie)
- bigger - big + small ≈ smaller (vergelijkende vorm)
Niemand programmeerde deze relaties. Het model ontdekte dat betekenis geometrische structuur heeft door miljarden woorden te lezen. Richtingen in inbeddingsruimte komen overeen met semantische relaties. Dit is één van de meest diepgaande geometrische ontdekkingen in machine learning.
De Variëteitenhypothese
Hoog-Dimensionale Gegevens Leven op Laag-Dimensionale Oppervlakken
Een 64×64 grijsschaal gezichtsafbeelding heeft 4.096 pixelwaarden — het is een punt in 4.096-dimensionale ruimte. Maar niet elk punt in die ruimte is een geldig gezicht. De meeste willekeurige 4.096-dimensionale vectoren zien eruit als statische ruis, niet gezichten.
De variëteitenhypothese stelt dat echte, hoog-dimensionale gegevens eigenlijk op of dicht bij laag-dimensionale gekromde oppervlakken (variëteiten) liggen ingebed in de hoog-dimensionale ruimte. De variëteit van gezichten zou misschien slechts 50-dimensionaal zijn — geparametriseerd door factoren zoals verlichtingshoek, kopstand, uitdrukking, huidskleur, leeftijd.
Dit is een geometrische claim met praktische gevolgen:
- Dimensionaliteitsreductie (PCA, t-SNE, UMAP) werkt omdat de gegevens ongeveer laag-dimensionaal zijn. Deze algoritmen vinden de variëteit & projecteren erop.
- Autoencoders leren om gegevens in een laag-dimensionale latente ruimte (de variëteit) te comprimeren & erop te reconstrueren.
- Generatieve modellen (VAEs, diffusiemodellen) leren de variëteit & geven nieuwe punten erop een monster — generating nieuwe gezichten, nieuwe muziek, nieuwe tekst die echt uitziet omdat zij op de geleerde variëteit ligt.
Wanneer je model niet generaliseren kan, één geometrische verklaring is: het leerde de verkeerde variëteit. De trainingsgegevens traceerden een oppervlak dat niet overeenkomt met de echte gegevensverdeling.
Vectoranalogiëen
De geometrische structuur van inbeddingsruimten is één van de meest verrassende resultaten in moderne machine learning.
ROC-Curven — Classificatiekwaliteit als Oppervlak
Evaluatiemetreken Leven in Geometrische Ruimten
Een ROC (Receiver Operating Characteristic) curve plot Ware Positieve Tarief (y-as) tegen Vals Positieve Tarief (x-as) terwijl je de classificatiedrempel van 0 naar 1 veegt.
Dit is een geometrische ruimte met zinvolle oriëntatiepunten:
- (0, 1) — de linker bovenhoek — perfecte classificatie. Elke positieve gedetecteerd, nul vals alarm.
- (0, 0) — linksonder — het model classificeert alles als negatief.
- (1, 1) — rechtsboven — het model classificeert alles als positief.
- De diagonaal van (0,0) naar (1,1) — een willekeurig classificatieapparaat. Bij elke drempel maakt het model gelijke positieve & negatieve valse transacties.
AUC (Gebied Onder de Curve) is letterlijk een geometrische oppervlaktemeting. AUC = 0,5 betekent dat het model willekeurig is (het oppervlak onder de diagonaal). AUC = 1,0 betekent perfecte classificatie (het volledige eenheidsvierkant). Een goed model's ROC-curve buigt naar de linker bovenhoek, wat meer oppervlak omsluit.
AUC heeft een mooie waarschijnlijkheidsinterpretatie: het gelijkt de waarschijnlijkheid dat het model een willekeurig positief voorbeeld hoger scoret dan een willekeurig negatief voorbeeld. Maar geometrisch is het gewoon oppervlak — & die geometrische eenvoud is wat het intuïtief maakt.
Precisie-Herinnering Ruimte
Een Ander Geometrisch Compromis
Precisie-herinnering curves leven in een ander geometrische ruimte dan ROC-curves, & zij vertellen een ander verhaal.
Precisie = van alles wat het model als positief markeerde, welke fractie was werkelijk positief?
Herinnering = van alle werkelijke positieven, welke fractie vond het model?
Terwijl je de classificatiedrempel verlaagt (meer dingen als positief markeren), stijgt herinnering (je vangt meer echte positieven) maar precisie daalt meestal (je vangt ook meer vals positieven). Dit compromis traceert een curve in precisie-herinnering ruimte.
F1-score = 2 × (precisie × herinnering) / (precisie + herinnering) — het harmonische gemiddelde. Geometrisch gelijkt de F1-score het punt op de precisie-herinnering curve waar precisie gelijkt aan herinnering. Het is waar de curve de diagonaal van het precisie-herinnering vierkant snijdt.
Gemiddelde Precisie (AP) = het oppervlak onder de precisie-herinnering curve. Zoals AUC-ROC, vat het de volledige curve samen in één getal dat geometrisch oppervlak vertegenwoordigt.
ROC-curves & precisie-herinnering curves zijn complementaire geometrische weergaven van hetzelfde model. ROC-curves kunnen misleidend optimistisch zijn op ongebalanceerde datasets (99% negatieve klasse). Precisie-herinnering curves blijven informatief omdat zij zich op de positieve klasse richten.
AUC-ROC Interpretatie
Begrijpen wat AUC-ROC geometrisch meet helpt je tussen modellen kiezen.
Transformators — Dotproducten als Aandacht
Aandacht Is een Geometrische Gelijkenismeting
De transformator-architectuur — de grondslag van moderne taalmodellen — is gebouwd op een geometrische bewerking: het dotproduct.
Voor elke token in een reeks berekent de transformator drie vectoren: Query (Q), Key (K), & Value (V), elk verkregen door het invoer-inbedding met geleerde gewichtsmatrices te vermenigvuldigen.
De aandachtsscore tussen twee tokens is: score = Q · K^T / √d
Dit is een geschaald dotproduct — een geometrische gelijkenismeting. Wanneer Q & K in dezelfde richting wijzen (kleine hoek ertussen), is het dotproduct groot: deze sleutel is zeer relevant voor deze query. Wanneer zij loodrecht zijn, is het dotproduct nul: irrelevant.
De scores gaan door softmax om een waarschijnlijkheidsverdeling te creëren: aandachtsgewichten die optellen tot 1. De uitvoer is de gewogen som van Waarde-vectoren, waarbij de gewichten worden bepaald door geometrische uitlijning.
In een zin als 'The cat sat on the mat because it was tired,' berekent aandacht: voor het woord 'it,' welke andere woorden hebben de meeste geometrische uitlijning? Als de Q-vector voor 'it' het meest nauw aansluit bij de K-vector voor 'cat,' bepaalt het model aandacht op 'cat' — het voornaamwoord-referentie oplossen door geometrie.
Multi-Head Aandacht — Meerdere Geometrische Perspectieven
Waarom Meerdere Koppen?
Zelf-aandacht met een enkele set van Q, K, V matrices berekent één soort geometrische uitlijning. Maar taal heeft veel soorten relaties — syntactische, semantische, positie, referentiële.
Multi-head aandacht gebruikt meerdere sets van Q, K, V projectiematrices, elk projicerend in een ander deelruimte van het inbedding. Elke kop meet uitlijning in zijn eigen geometrische deelruimte.
Wat onderzoekers observeren wanneer zij aandachtskoppen inspecteren:
- Kop 1 zou aandacht kunnen bepalen op het vorige woord (positie nabijheid)
- Kop 2 zou aandacht kunnen bepalen op het werkwoord vanuit het onderwerp (syntactische afhankelijkheid)
- Kop 3 zou aandacht kunnen bepalen op semantisch gerelateerde woorden eerder in de context
- Kop 4 zou aandacht kunnen bepalen op het meest recente zelfstandig naamwoord (correference)
Elke kop is een ander geometrisch lens op dezelfde gegevens. De projecties roteren & schaal de inbeddingsruimte anders, waardoor verschillende relaties zichtbaar worden door uitlijning.
Dit is waarom transformators modellen met één aandachtsmechanisme overtreffen. Een enkel dotproduct in de volledige inbeddingsruimte vangt één notie van gelijkenis. Meerdere dotproducten in verschillende deelruimten vangen meerdere, aanvullende noties tegelijk.
Multi-Head Aandacht
Multi-head aandacht is één van de sleutelarchitectuuraanpassingen van de transformator.
Machine Learning Is Toegepaste Geometrie
De Eenifiërende Thread
Kijk wat wij hebben behandeld. Elk belangrijk concept in machine learning heeft een geometrische kern:
Gegevens = punten in hoog-dimensionale ruimte
Kenmerken = dimensies van die ruimte
Gelijkenis = afstand of hoek tussen punten
Classificatie = geometrische grenzen vinden tussen klassen
Training = een verliesooppervlak navigeren door gradiënten te volgen
Inbeddingen = geleerde coördinatensystemen waar geometrie betekenis codeert
Evaluatie = oppervlakten onder curves in metrische ruimten
Aandacht = dotproducten die hoekuitlijning meten
Dit is geen toeval. Machine learning erfde zijn wiskundig raamwerk van lineaire algebra & differentiaalmeetkunde — velden die fundamenteel over ruimte, vorm & transformatie gaan.
Het begrijpen van de geometrie geeft je iets wat het onthouden van algoritmen niet kan: intuïtie. Wanneer je model faalt, suggereert de geometrische weergave waar je moet kijken. Zijn de klassen niet scheidbaar? Kijk naar de grens. Zit training vast? Onderzoek het verliesooppervlak. Zijn inbeddingen slecht? Controleer of gelijkaardige items geometrisch dicht bij elkaar liggen. Is aandacht diffuus? Inspecteer de deelruimteprojecties.
De geometrie is hetzelfde of je nu met 3 dimensies of 3 miljard werkt. De wiskunde schaalt. De intuïtie draagt over. Dit is wat geometrie de universele taal van machine learning maakt.
Geometrische Debug
Wij hebben vectoren, afstanden, grenzen, training, inbeddingen, evaluatie, & aandacht behandeld — allemaal door de lens van geometrie.