English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

gast
1 / ?
terug naar lessen

Data Leeft in Geometrische Ruimte

Alles Is een Vector

Woordinbeddingsvectoren — Gelijkenis als Richting

In machine learning leven gegevens in geometrische ruimte. Elk gegevenspunt met N kenmerken is een punt in N-dimensionale ruimte. Dit is niet metaphorisch — het is de letterlijke wiskundige fundering van elk algoritme.


Een afbeelding van een handgeschreven cijfer (28×28 pixels) is een punt in 784-dimensionale ruimte. Elke pixel is één coördinaat. Twee gelijkaardige cijfers zijn nabijgelegen punten in die ruimte. Twee verschillende cijfers zijn ver uit elkaar.


Een woordinbedding brengt een woord in kaart naar een punt in 300-dimensionale ruimte. Woorden met vergelijkbare betekenissen eindigen in dezelfde buurt. 'Hond' en 'puppy' liggen dicht bij elkaar. 'Hond' en 'parlement' liggen ver uit elkaar.


Een gebruikersprofiel met 50 kenmerken (leeftijd, aankoopgeschiedenis, klikpatronen) is een punt in 50-dimensionale ruimte. Aanbevelingsmotoren vinden gebruikers die 'dicht bij' in deze ruimte zijn en suggereren wat hun geometrische buren leuk vonden.


Geometrie is hoe wij over deze ruimten nadenken. Afstand, richting, hoek, projectie — dit zijn de fundamentele bewerkingen van machine learning.

Vectorbewerkingen — De Bouwstenen

Het Dotproduct Drijft Alles Aan

Drie vectorbewerkingen zijn het meest belangrijk in machine learning:


Vectoroptelling — kenmerken of signalen combineren. Als je twee woordvectoren optelt, krijg je een vector die beide concepten gemengd vertegenwoordigt.


Scalaire vermenigvuldiging — een vector schalen verandert zijn magnitude zonder zijn richting te veranderen. Leersnelheden in gradiëntafkomst zijn scalaire vermenigvuldigers.


Dotproduct — dit is het werkpaard. Het dotproduct van twee vectoren a en b gelijk |a||b|cos(θ), waarbij θ de hoek ertussen is. Wanneer de vectoren genormaliseerd zijn (eenheidslengte), is het dotproduct GELIJK AAN de cosinus van de hoek.


Cosinusgelijkenis = cos(θ) = (a·b) / (|a||b|)


Deze enkele formule drijft aan:

- Zoekmachines — documenten vinden die vergelijkbaar zijn met een zoekopdracht

- Aandachtsmechanismen — bepalen welke tokens belangrijk zijn voor elkaar

- Aanbevelingsmotoren — gebruikersprofielen matchen met itemprofielen

- Retrieval-augmented generation — relevante context vinden voor taalmodellen


cos(θ) = 1 betekent dat de vectoren exact in dezelfde richting wijzen (identieke betekenis). cos(θ) = 0 betekent dat ze loodrecht staan (niet gerelateerd). cos(θ) = -1 betekent dat ze in tegengestelde richtingen wijzen (tegengestelde betekenis).

Cosinusgelijkenis

Cosinusgelijkenis is één van de meest gebruikte metrieken in moderne machine learning-systemen.

Twee woordinbeddingsvectoren hebben een cosinusgelijkenis van 0,95. Een ander paar heeft cosinusgelijkenis van 0,12. Wat zeggen deze nummers elk over de relatie tussen de woorden in elk paar?

Drie Manieren om Afstand Te Meten

De Keuze van Afstandsmetriek Verandert Wat 'Soortgelijk' Betekent

Drie Afstandsmetrieken — Dezelfde Punten, Verschillende Betekenissen

Gegeven twee punten in ruimte zijn er veel manieren om de 'afstand' ertussen te meten. Elke metriek definieert een ander geometrie, en die geometrie bepaalt wat jouw model 'soortgelijk' beschouwt.


Euclidische afstand (L2) — de rechte-lijnafstand. d = √(Σ(aᵢ - bᵢ)²). Dit is de 'zoals de kraai vliegt' afstand, degene die jouw intuïtie verwacht. Het behandelt alle dimensies gelijk en is gevoelig voor magnitude.


Manhattan-afstand (L1) — de grid-wandelafstand. d = Σ|aᵢ - bᵢ|. Zoals door stadsblokken navigeren — je kunt alleen langs assen bewegen, nooit diagonaal. Robuuster voor uitbijters in enkele dimensies omdat het de verschillen niet kwadraatiseert.


Cosinusafstand — meet de hoek tussen vectoren, magnitude volledig negerend. d = 1 - cos(θ). Twee documenten over hetzelfde onderwerp hebben kleine cosinusafstand, ongeacht lengte. Twee gelijk lange documenten over verschillende onderwerpen hebben grote cosinusafstand.


De keuze is niet willekeurig. Als magnitude belangrijk is (dosis van een medicijn, temperatuur van een reactor), gebruik Euclidisch. Als je zorgt om verhoudingen in plaats van absoluten (woordfrequentieverdelingen, gebruikersvorkeurprofielen), gebruik cosinus. Als individuele kenmerksverschillen meer belangrijk zijn dan totale magnitude (foutdiagnose, waar één sensor pieken zinvol is), gebruik Manhattan.

K-Dichtstbijzijnde Buren — Zuivere Geometrie

KNN: Het Eenvoudigste Geometrische Algoritme

K-Dichtstbijzijnde Buren is het meest transparante geometrische algoritme in machine learning. Het heeft geen trainingsfase — het IS de trainingsgegevens.


Om een nieuw punt te classificeren: vind de K dichtstbijzijnde punten in de trainingsgegevens. Laat ze stemmen. Meerderheidsklasse wint. Dat is het hele algoritme.


De besluitingsgrens die KNN produceert is een Voronoi-diagram — een verdeling van ruimte waarbij elk punt tot de regio van zijn dichtstbijzijnde trainingsvoorbeeld behoort. De grenzen zijn de loodrechte bisectoren tussen aangrenzende trainingspunten.


Hier is het geometrische inzicht dat belangrijk is: de keuze van afstandsmetriek verandert het Voronoi-diagram volledig. Euclidische afstand produceert gekromde, circulaire grenzen. Manhattan-afstand produceert diamantvormige grenzen. Cosinusafstand produceert hoekige, kegelgevormd grenzen.


Dezelfde trainingsgegevens. Dezelfde K. Andere afstandsmetriek. Volledig ander model. De geometrie IS het model.

Een Afstandsmetriek Kiezen

Afstandsmetrieken zijn niet uitwisselbaar — de juiste keuze hangt af van wat 'soortgelijk' betekent voor jouw gegevens.

Waarom zou je cosinusafstand gebruiken in plaats van Euclidische afstand bij het vergelijken van documenten? Denk na over wat er gebeurt wanneer twee documenten hetzelfde onderwerp bespreken maar één is veel langer.

Hypervlakken — Vlakke Grenzen in Hoge Dimensies

Elk Lineair Classificatieapparaat Vindt een Hypervlak

Besluitingsgrenzen — Lineair, Niet-Lineair, en de Kernetruc

Een lineair classificatieapparaat vindt een plat oppervlak dat twee klassen scheidt. De dimensionaliteit van dit oppervlak hangt af van de ruimte:


- In 2D-ruimte is de grens een lijn (1-dimensionaal)

- In 3D-ruimte is de grens een vlak (2-dimensionaal)

- In 784D-ruimte (MNIST cijferafbeeldingen) is de grens een 783-dimensionaal hypervlak


Het algemene patroon: in N-dimensionale ruimte is de besluitingsgrens een (N-1)-dimensionaal plat oppervlak genaamd een hypervlak.


Logistische regressie, support vector machines & enkelvoudige perceptrons zijn allemaal hypervlakvinders. Ze verschillen in HOE zij het beste hypervlak vinden:

- Logistische regressie maximaliseert de waarschijnlijkheid van juiste classificatie

- SVMs maximaliseren de geometrische marge — de afstand van het hypervlak tot de dichtstbijzijnde gegevenspunten

- Perceptrons vinden eenvoudig een hypervlak dat de gegevens scheidt, met geen garantie van optimaliteit


De gewichtsvector van een lineair classificatieapparaat IS de normaalvector naar het hypervlak. De biasterm verschuift het hypervlak weg van de oorsprong. Dit zijn geometrische objecten met geometrische interpretaties.

Voorbij Vlakke Grenzen

Wanneer Gegevens Niet Lineair Scheidbaar Zijn

Veel praktijkproblemen kunnen niet opgelost worden met een vlakke grens. Denk aan het classificeren van afbeeldingen van katten tegen honden — geen enkel hypervlak in pixelruimte scheidt ze schoon.


Twee geometrische strategieën bestaan:


Strategie 1: De Kernetruc — Transformeer de gegevens in een hoger-dimensionale ruimte waar het WEL lineair scheidbaar is. Een klassiek voorbeeld: punten binnen een cirkel (klasse A) & punten erbuiten (klasse B) in 2D. Geen lijn scheidt hen. Maar voeg een derde dimensie z = x² + y² toe, & de binnenste punten (kleine x² + y²) zitten laag terwijl de buitenste punten (grote x² + y²) hoog zitten. Nu scheidt een plat vlak hen perfect.


SVMs met kernelfuncties doen dit impliciet — zij berekenen dotproducten in de hoog-dimensionale ruimte zonder ooit de daadwerkelijke hoog-dimensionale vectoren te construeren. Dit wordt de 'kernetruc' genoemd & het is een zuiver geometrisch inzicht.


Strategie 2: Neurale netwerken — Stapel lineaire transformaties met niet-lineaire activatiefuncties. Elke laag voert een lineaire transformatie uit (matrixvermenigvuldiging = rotatie + schaling + afschuiving) gevolgd door een niet-lineaire 'buiging' (ReLU, sigmoid, tanh). De samenstelling van veel lineair-dan-buig bewerkingen kan elke continue grensverandering benaderen.


Een diep neuraal netwerk is een reeks geometrische transformaties die de invoerruimte vervormen tot de klassen lineair scheidbaar worden in de uiteindelijke laag.

Circulaire Gegevens Scheiden

Dit is één van de meest belangrijke geometrische problemen in machine learning.

In 2D heb je rode punten in een cirkel & blauwe punten erbuiten. Een rechte lijn kan hen niet scheiden. Beschrijf twee geometrische strategieën om dit op te lossen.

Het Verliesoppervlak

Training = Bergafwaarts Lopen op een Oppervlak

Verlieslandschap — Het Oppervlak Navigeren

Elk machine learning-model heeft parameters — gewichten & biases. De verliesfunctie meet hoe verkeerd de voorspellingen van het model zijn. Samen definiëren deze een verliesoppervlak: een landschap waar elk punt overeenkomt met een specifieke set parameterwaarden, & de hoogte is het verlies.


Voor een model met 2 parameters is het verliesooppervlak een 3D-landschap dat je kunt visualiseren — heuvels, dalen & vlakten. Voor een model met 175 miljard parameters (zoals GPT-3) bevindt het verliesooppervlak zich in 175-miljard-dimensionale ruimte. De wiskunde is identiek.


Gradiëntafkomst is het algoritme dat dit oppervlak navigeert. De gradiënt is een geometrisch object — een vector die in de richting van steilste stijging wijst. Om verlies te verminderen, beweeg in de tegengestelde richting: de negatieve gradiënt. Dit is letterlijk bergafwaarts lopen.


De leersnelheid bepaalt stapgrootte. Teveel & je schiet dalen over. Teweinig & je kruipt. De gradiënt zegt je de richting; de leersnelheid zegt je hoe ver je gaat stappen.

Zadelsoorten, Minima, & de Geometrie van Hoge Dimensies

Het Verliesooppervlak Is Geen Eenvoudige Kom

Een naïef beeld van training stelt zich een gladde kom voor met één laagste punt. De werkelijkheid is veel complexer:


Lokale minima — dalen die niet het diepste zijn. Gradiëntafkomst kan hier steken, tevreden dat elke richting omhoog gaat, zelfs hoewel een dieper dal ergens anders bestaat.


Zadelsoorten — vormgegeven als zadel van paard. Het verlies buigt benedenwaarts in sommige dimensies & opwaarts in andere. In 2D is dit zeldzaam. In hoge dimensies zijn zadelsoorten exponentieel meer algemeen dan lokale minima. Een kritiek punt in 1000-dimensionale ruimte moet opwaarts buigen in ALLE 1000 dimensies om een lokaal minimum te zijn. Als zelfs één dimensie bendwaarts buigt, is het een zadelsoort.


Vlakke plateaus — regio's waar de gradiënt dicht bij nul ligt. Training stagneert omdat er geen helling is om te volgen.


Scherpe tegen vlakke minima — een scherp minimum is een smal dal. Een vlak minimum is een breed dal. Onderzoek suggereert dat vlakke minima beter generaliseren naar onzichtbare gegevens, omdat kleine verstoringen van de parameters (van ruis in nieuwe gegevens) het verlies niet dramatisch veranderen.


SGD met momentum helpt zadelsoorten & scherpe minima te ontsnappen. De willekeurigheid van stochastische gradiëntafkomst werkt als schudden van een bal op het oppervlak — het stuitert uit nauwe vallen & vindt bredere, vlakkere dalen.

SGD tegen Volledige-Batch Gradiëntafkomst

Dit is één van de meest belangrijke praktische inzichten in machine learning-training.

Waarom vindt stochastische gradiëntafkomst (SGD) vaak betere oplossingen dan volledige-batch gradiëntafkomst, vanuit een geometrisch perspectief?

Woorden als Vectoren — Semantische Rekenkunde

Betekenis Heeft Richting

Woordinbeddingsruimte — Semantische Geometrie

Word2Vec, GloVe, & moderne transformator-inbeddingen brengen discrete tokens (woorden, subwoorden) in kaart naar continue vectorruimten. Het resultaat is een geometrische wereld waar betekenis coördinaten heeft.


Het beroemde voorbeeld: king - man + woman ≈ queen


Dit is vectorrekenkunde. De vector van 'man' naar 'king' vertegenwoordigt het concept 'koninklijkheid toegepast op een man.' De vector van 'woman' naar 'queen' vertegenwoordigt 'koninklijkheid toegepast op een vrouw.' Deze vectoren zijn ongeveer parallel — dezelfde richting, dezelfde relatie, verschillende startpunten.


Andere geometrische relaties die voortkomen uit training op tekst:

- Paris - France + Italy ≈ Rome (hoofdstad-van relatie)

- walked - walk + swim ≈ swam (verleden tijd transformatie)

- bigger - big + small ≈ smaller (vergelijkende vorm)


Niemand programmeerde deze relaties. Het model ontdekte dat betekenis geometrische structuur heeft door miljarden woorden te lezen. Richtingen in inbeddingsruimte komen overeen met semantische relaties. Dit is één van de meest diepgaande geometrische ontdekkingen in machine learning.

De Variëteitenhypothese

Hoog-Dimensionale Gegevens Leven op Laag-Dimensionale Oppervlakken

Een 64×64 grijsschaal gezichtsafbeelding heeft 4.096 pixelwaarden — het is een punt in 4.096-dimensionale ruimte. Maar niet elk punt in die ruimte is een geldig gezicht. De meeste willekeurige 4.096-dimensionale vectoren zien eruit als statische ruis, niet gezichten.


De variëteitenhypothese stelt dat echte, hoog-dimensionale gegevens eigenlijk op of dicht bij laag-dimensionale gekromde oppervlakken (variëteiten) liggen ingebed in de hoog-dimensionale ruimte. De variëteit van gezichten zou misschien slechts 50-dimensionaal zijn — geparametriseerd door factoren zoals verlichtingshoek, kopstand, uitdrukking, huidskleur, leeftijd.


Dit is een geometrische claim met praktische gevolgen:


- Dimensionaliteitsreductie (PCA, t-SNE, UMAP) werkt omdat de gegevens ongeveer laag-dimensionaal zijn. Deze algoritmen vinden de variëteit & projecteren erop.

- Autoencoders leren om gegevens in een laag-dimensionale latente ruimte (de variëteit) te comprimeren & erop te reconstrueren.

- Generatieve modellen (VAEs, diffusiemodellen) leren de variëteit & geven nieuwe punten erop een monster — generating nieuwe gezichten, nieuwe muziek, nieuwe tekst die echt uitziet omdat zij op de geleerde variëteit ligt.


Wanneer je model niet generaliseren kan, één geometrische verklaring is: het leerde de verkeerde variëteit. De trainingsgegevens traceerden een oppervlak dat niet overeenkomt met de echte gegevensverdeling.

Vectoranalogiëen

De geometrische structuur van inbeddingsruimten is één van de meest verrassende resultaten in moderne machine learning.

Als woordinbeddingen betekenis geometrisch vastleggen, wat betekent het wanneer wij zeggen dat de vector van 'man' naar 'king' ongeveer parallel is aan de vector van 'woman' naar 'queen'? Welk geometrisch concept is aan het werk?

ROC-Curven — Classificatiekwaliteit als Oppervlak

Evaluatiemetreken Leven in Geometrische Ruimten

ROC-Ruimte — Classificatiekwaliteit als Geometrie

Een ROC (Receiver Operating Characteristic) curve plot Ware Positieve Tarief (y-as) tegen Vals Positieve Tarief (x-as) terwijl je de classificatiedrempel van 0 naar 1 veegt.


Dit is een geometrische ruimte met zinvolle oriëntatiepunten:

- (0, 1) — de linker bovenhoek — perfecte classificatie. Elke positieve gedetecteerd, nul vals alarm.

- (0, 0) — linksonder — het model classificeert alles als negatief.

- (1, 1) — rechtsboven — het model classificeert alles als positief.

- De diagonaal van (0,0) naar (1,1) — een willekeurig classificatieapparaat. Bij elke drempel maakt het model gelijke positieve & negatieve valse transacties.


AUC (Gebied Onder de Curve) is letterlijk een geometrische oppervlaktemeting. AUC = 0,5 betekent dat het model willekeurig is (het oppervlak onder de diagonaal). AUC = 1,0 betekent perfecte classificatie (het volledige eenheidsvierkant). Een goed model's ROC-curve buigt naar de linker bovenhoek, wat meer oppervlak omsluit.


AUC heeft een mooie waarschijnlijkheidsinterpretatie: het gelijkt de waarschijnlijkheid dat het model een willekeurig positief voorbeeld hoger scoret dan een willekeurig negatief voorbeeld. Maar geometrisch is het gewoon oppervlak — & die geometrische eenvoud is wat het intuïtief maakt.

Precisie-Herinnering Ruimte

Een Ander Geometrisch Compromis

Precisie-herinnering curves leven in een ander geometrische ruimte dan ROC-curves, & zij vertellen een ander verhaal.


Precisie = van alles wat het model als positief markeerde, welke fractie was werkelijk positief?

Herinnering = van alle werkelijke positieven, welke fractie vond het model?


Terwijl je de classificatiedrempel verlaagt (meer dingen als positief markeren), stijgt herinnering (je vangt meer echte positieven) maar precisie daalt meestal (je vangt ook meer vals positieven). Dit compromis traceert een curve in precisie-herinnering ruimte.


F1-score = 2 × (precisie × herinnering) / (precisie + herinnering) — het harmonische gemiddelde. Geometrisch gelijkt de F1-score het punt op de precisie-herinnering curve waar precisie gelijkt aan herinnering. Het is waar de curve de diagonaal van het precisie-herinnering vierkant snijdt.


Gemiddelde Precisie (AP) = het oppervlak onder de precisie-herinnering curve. Zoals AUC-ROC, vat het de volledige curve samen in één getal dat geometrisch oppervlak vertegenwoordigt.


ROC-curves & precisie-herinnering curves zijn complementaire geometrische weergaven van hetzelfde model. ROC-curves kunnen misleidend optimistisch zijn op ongebalanceerde datasets (99% negatieve klasse). Precisie-herinnering curves blijven informatief omdat zij zich op de positieve klasse richten.

AUC-ROC Interpretatie

Begrijpen wat AUC-ROC geometrisch meet helpt je tussen modellen kiezen.

Twee modellen hebben dezelfde nauwkeurigheid (85%). Model A heeft AUC-ROC van 0,92. Model B heeft AUC-ROC van 0,78. Waarom zou je Model A misschien verkiezen? Wat zegt het geometrische verschil in hun ROC-curves je?

Transformators — Dotproducten als Aandacht

Aandacht Is een Geometrische Gelijkenismeting

Aandacht = Geometrische Uitlijning Tussen Query & Keys

De transformator-architectuur — de grondslag van moderne taalmodellen — is gebouwd op een geometrische bewerking: het dotproduct.


Voor elke token in een reeks berekent de transformator drie vectoren: Query (Q), Key (K), & Value (V), elk verkregen door het invoer-inbedding met geleerde gewichtsmatrices te vermenigvuldigen.


De aandachtsscore tussen twee tokens is: score = Q · K^T / √d


Dit is een geschaald dotproduct — een geometrische gelijkenismeting. Wanneer Q & K in dezelfde richting wijzen (kleine hoek ertussen), is het dotproduct groot: deze sleutel is zeer relevant voor deze query. Wanneer zij loodrecht zijn, is het dotproduct nul: irrelevant.


De scores gaan door softmax om een waarschijnlijkheidsverdeling te creëren: aandachtsgewichten die optellen tot 1. De uitvoer is de gewogen som van Waarde-vectoren, waarbij de gewichten worden bepaald door geometrische uitlijning.


In een zin als 'The cat sat on the mat because it was tired,' berekent aandacht: voor het woord 'it,' welke andere woorden hebben de meeste geometrische uitlijning? Als de Q-vector voor 'it' het meest nauw aansluit bij de K-vector voor 'cat,' bepaalt het model aandacht op 'cat' — het voornaamwoord-referentie oplossen door geometrie.

Multi-Head Aandacht — Meerdere Geometrische Perspectieven

Waarom Meerdere Koppen?

Zelf-aandacht met een enkele set van Q, K, V matrices berekent één soort geometrische uitlijning. Maar taal heeft veel soorten relaties — syntactische, semantische, positie, referentiële.


Multi-head aandacht gebruikt meerdere sets van Q, K, V projectiematrices, elk projicerend in een ander deelruimte van het inbedding. Elke kop meet uitlijning in zijn eigen geometrische deelruimte.


Wat onderzoekers observeren wanneer zij aandachtskoppen inspecteren:

- Kop 1 zou aandacht kunnen bepalen op het vorige woord (positie nabijheid)

- Kop 2 zou aandacht kunnen bepalen op het werkwoord vanuit het onderwerp (syntactische afhankelijkheid)

- Kop 3 zou aandacht kunnen bepalen op semantisch gerelateerde woorden eerder in de context

- Kop 4 zou aandacht kunnen bepalen op het meest recente zelfstandig naamwoord (correference)


Elke kop is een ander geometrisch lens op dezelfde gegevens. De projecties roteren & schaal de inbeddingsruimte anders, waardoor verschillende relaties zichtbaar worden door uitlijning.


Dit is waarom transformators modellen met één aandachtsmechanisme overtreffen. Een enkel dotproduct in de volledige inbeddingsruimte vangt één notie van gelijkenis. Meerdere dotproducten in verschillende deelruimten vangen meerdere, aanvullende noties tegelijk.

Multi-Head Aandacht

Multi-head aandacht is één van de sleutelarchitectuuraanpassingen van de transformator.

In een transformator, waarom helpt het gebruiken van meerdere aandachtskoppen vergeleken met een enkele kop? Antwoord in termen van geometrische deelruimten.

Machine Learning Is Toegepaste Geometrie

De Eenifiërende Thread

Kijk wat wij hebben behandeld. Elk belangrijk concept in machine learning heeft een geometrische kern:


Gegevens = punten in hoog-dimensionale ruimte

Kenmerken = dimensies van die ruimte

Gelijkenis = afstand of hoek tussen punten

Classificatie = geometrische grenzen vinden tussen klassen

Training = een verliesooppervlak navigeren door gradiënten te volgen

Inbeddingen = geleerde coördinatensystemen waar geometrie betekenis codeert

Evaluatie = oppervlakten onder curves in metrische ruimten

Aandacht = dotproducten die hoekuitlijning meten


Dit is geen toeval. Machine learning erfde zijn wiskundig raamwerk van lineaire algebra & differentiaalmeetkunde — velden die fundamenteel over ruimte, vorm & transformatie gaan.


Het begrijpen van de geometrie geeft je iets wat het onthouden van algoritmen niet kan: intuïtie. Wanneer je model faalt, suggereert de geometrische weergave waar je moet kijken. Zijn de klassen niet scheidbaar? Kijk naar de grens. Zit training vast? Onderzoek het verliesooppervlak. Zijn inbeddingen slecht? Controleer of gelijkaardige items geometrisch dicht bij elkaar liggen. Is aandacht diffuus? Inspecteer de deelruimteprojecties.


De geometrie is hetzelfde of je nu met 3 dimensies of 3 miljard werkt. De wiskunde schaalt. De intuïtie draagt over. Dit is wat geometrie de universele taal van machine learning maakt.

Geometrische Debug

Wij hebben vectoren, afstanden, grenzen, training, inbeddingen, evaluatie, & aandacht behandeld — allemaal door de lens van geometrie.

Kies één concept uit deze les & leg uit hoe het begrijpen van zijn geometrische aard HOE je zou debuggen of een model verbeteren dat het gebruikt VERANDERT. Wees specifiek.