Daten leben im geometrischen Raum
Alles ist ein Vektor
Im Machine Learning leben Daten im geometrischen Raum. Jeder Datenpunkt mit N Merkmalen ist ein Punkt im N-dimensionalen Raum. Dies ist keine Metapher – es ist die wörtliche mathematische Grundlage jedes Algorithmus.
Ein handgeschriebenes Ziffernbild (28×28 Pixel) ist ein Punkt im 784-dimensionalen Raum. Jedes Pixel ist eine Koordinate. Zwei ähnlich aussehende Ziffern sind benachbarte Punkte in diesem Raum. Zwei verschiedene Ziffern sind weit entfernt.
Eine Wort-Embedding ordnet ein Wort einem Punkt im 300-dimensionalen Raum zu. Wörter mit ähnlichen Bedeutungen enden in der gleichen Nachbarschaft. 'Hund' und 'Welpe' liegen nah beieinander. 'Hund' und 'Parlament' sind weit entfernt.
Ein Benutzerprofil mit 50 Merkmalen (Alter, Kaufverlauf, Klick-Muster) ist ein Punkt im 50-dimensionalen Raum. Empfehlungsmaschinen finden Benutzer, die 'benachbart' in diesem Raum sind, und schlagen vor, was ihre geometrischen Nachbarn mochten.
Geometrie ist, wie wir über diese Räume nachdenken. Distanz, Richtung, Winkel, Projektion – dies sind die fundamentalen Operationen des Machine Learning.
Vektor-Operationen – Die Bausteine
Das Skalarprodukt treibt alles an
Drei Vektor-Operationen sind am wichtigsten im Machine Learning:
Vektoraddition – Merkmale oder Signale kombinieren. Wenn du zwei Wort-Vektoren addierst, erhältst du einen Vektor, der beide Konzepte vermischt darstellt.
Skalare Multiplikation – Einen Vektor skalieren ändert seine Magnitude ohne seine Richtung zu ändern. Lernraten beim Gradient Descent sind skalare Multiplikatoren.
Skalarprodukt – das Arbeitstier. Das Skalarprodukt zweier Vektoren a und b gleich |a||b|cos(θ), wobei θ der Winkel zwischen ihnen ist. Wenn die Vektoren normalisiert sind (Einheitslänge), ist das Skalarprodukt genau der Kosinus des Winkels.
Kosinus-Ähnlichkeit = cos(θ) = (a·b) / (|a||b|)
Diese einzelne Formel treibt an:
- Suchmaschinen – ähnliche Dokumente zu einer Anfrage finden
- Aufmerksamkeitsmechanismen – entscheiden, welche Token zueinander wichtig sind
- Empfehlungsmaschinen – Benutzerprofile mit Produktprofilen abgleichen
- Retrieval-Augmented Generation – relevante Kontexte für Sprachmodelle finden
cos(θ) = 1 bedeutet die Vektoren zeigen in genau die gleiche Richtung (identische Bedeutung). cos(θ) = 0 bedeutet sie sind senkrecht (unverwandt). cos(θ) = -1 bedeutet sie zeigen in entgegengesetzte Richtungen (gegensätzliche Bedeutung).
Kosinus-Ähnlichkeit
Kosinus-Ähnlichkeit ist eine der am häufigsten verwendeten Metriken in modernen Machine-Learning-Systemen.
Drei Wege um Distanz zu messen
Die Wahl der Distanzmetrik ändert, was 'ähnlich' bedeutet
Gegeben zwei Punkte im Raum, gibt es viele Wege um die 'Distanz' zwischen ihnen zu messen. Jede Metrik definiert eine andere Geometrie, und diese Geometrie bestimmt, was dein Modell als 'ähnlich' betrachtet.
Euklidische Distanz (L2) – die gerade Linie Distanz. d = √(Σ(aᵢ - bᵢ)²). Dies ist die 'wie die Krähe fliegt' Distanz, die deine Intuition erwartet. Sie behandelt alle Dimensionen gleich und ist empfindlich für Magnitude.
Manhattan-Distanz (L1) – die Rastergehweg-Distanz. d = Σ|aᵢ - bᵢ|. Wie Stadtblöcke navigieren – du kannst nur entlang der Achsen gehen, nie diagonal. Robuster gegen Ausreißer in einzelnen Dimensionen, weil es die Differenzen nicht quadriert.
Kosinus-Distanz – misst den Winkel zwischen Vektoren, ignoriert Magnitude völlig. d = 1 - cos(θ). Zwei Dokumente über das gleiche Thema haben kleine Kosinus-Distanz unabhängig von Länge. Zwei gleich lange Dokumente über verschiedene Themen haben große Kosinus-Distanz.
Die Wahl ist nicht willkürlich. Wenn Magnitude wichtig ist (Medikamentendosierung, Reaktortemperatur), verwende Euklidisch. Wenn dir Anteile wichtiger sind als absolute Werte (Worthäufigkeitsverteilungen, Benutzerpräferenzprofile), verwende Kosinus. Wenn einzelne Merkmalsdifferenzen wichtiger sind als Gesamtmagnitude (Fehlerdiagnose, wo ein Sensor ausschlag bedeutsam ist), verwende Manhattan.
K-Nächste Nachbarn – Reine Geometrie
KNN: Der einfachste geometrische Algorithmus
K-Nearest Neighbors ist der transparenteste geometrische Algorithmus im Machine Learning. Es gibt keine Trainingsphase – es IST die Trainingsdaten.
Um einen neuen Punkt zu klassifizieren: finde die K nächsten Punkte in den Trainingsdaten. Lass sie abstimmen. Die Mehrheitsklasse gewinnt. Das ist der gesamte Algorithmus.
Die Entscheidungsgrenze, die KNN erzeugt, ist ein Voronoi-Diagramm – eine Aufteilung des Raums, wo jeder Punkt zur Region seines nächsten Trainingsbeispiels gehört. Die Grenzen sind die senkrechten Bisektoren zwischen benachbarten Trainingspunkten.
Hier ist die geometrische Einsicht, die wichtig ist: die Wahl der Distanzmetrik verändert das Voronoi-Diagramm völlig. Euklidische Distanz erzeugt gekrümmte, kreisförmige Grenzen. Manhattan-Distanz erzeugt diamantförmige Grenzen. Kosinus-Distanz erzeugt winkelige, kegelförmige Grenzen.
Gleiche Trainingsdaten. Gleiches K. Andere Distanzmetrik. Völlig anderes Modell. Die Geometrie IST das Modell.
Wahl einer Distanzmetrik
Distanzmetriken sind nicht austauschbar – die richtige Wahl hängt davon ab, was 'ähnlich' für deine Daten bedeutet.
Hyperebenen – Flache Grenzen in hohen Dimensionen
Jeder lineare Klassifizierer findet eine Hyperebene
Ein linearer Klassifizierer findet eine flache Oberfläche, die zwei Klassen trennt. Die Dimensionalität dieser Oberfläche hängt vom Raum ab:
- Im 2D-Raum ist die Grenze eine Linie (1-dimensional)
- Im 3D-Raum ist die Grenze eine Ebene (2-dimensional)
- Im 784D-Raum (MNIST-Ziffernbilder) ist die Grenze eine 783-dimensionale Hyperebene
Das allgemeine Muster: im N-dimensionalen Raum ist die Entscheidungsgrenze eine (N-1)-dimensionale flache Oberfläche, genannt eine Hyperebene.
Logistische Regression, Support-Vector-Maschinen und einschichtige Perceptrons sind alle Hyperebenen-Finder. Sie unterscheiden sich, WENN sie die beste Hyperebene finden:
- Logistische Regression maximiert die Wahrscheinlichkeit der korrekten Klassifizierung
- SVMs maximieren die geometrische Marge – die Distanz von der Hyperebene zum nächsten Datenpunkt
- Perceptrons finden einfach eine Hyperebene, die die Daten trennt, ohne Garantie für Optimalität
Der Gewichtsvektor eines linearen Klassifizierers IST der Normalvektor zur Hyperebene. Der Bias-Term verschiebt die Hyperebene vom Ursprung weg. Das sind geometrische Objekte mit geometrischen Interpretationen.
Jenseits flacher Grenzen
Wenn Daten nicht linear separierbar sind
Viele reale Probleme können nicht mit einer flachen Grenze gelöst werden. Betrachte Katzen vs Hunde Bilder klassifizieren – keine einzelne Hyperebene im Pixelraum trennt sie sauber.
Zwei geometrische Strategien existieren:
Strategie 1: Der Kernel-Trick – Transformiere die Daten in einen höherdimensionalen Raum, wo sie linear separierbar sind. Ein klassisches Beispiel: Punkte innerhalb eines Kreises (Klasse A) und Punkte außerhalb (Klasse B) im 2D. Keine Linie trennt sie. Aber füge eine dritte Dimension z = x² + y² hinzu, und die inneren Punkte (kleines x² + y²) sitzen tief während die äußeren Punkte (großes x² + y²) hoch sitzen. Jetzt trennt eine flache Ebene sie perfekt.
SVMs mit Kernel-Funktionen tun dies implizit – sie berechnen Skalarprodukte im hochdimensionalen Raum ohne jemals die tatsächlichen hochdimensionalen Vektoren zu konstruieren. Das nennt sich der 'Kernel-Trick' und es ist eine rein geometrische Einsicht.
Strategie 2: Neuronale Netze – Stapele lineare Transformationen mit nichtlinearen Aktivierungsfunktionen. Jede Schicht wendet eine lineare Transformation an (Matrix-Multiplikation = Rotation + Skalierung + Scherung) gefolgt von einer nichtlinearen 'Beugung' (ReLU, Sigmoid, tanh). Die Komposition vieler Linear-dann-Beugung Operationen kann jede kontinuierliche Grenzenform annähern.
Ein tiefes neuronales Netzwerk ist eine Sequenz geometrischer Transformationen, die den Eingaberaum verzerren bis die Klassen in der finalen Schicht linear separierbar werden.
Kreisförmige Daten trennen
Dies ist eines der wichtigsten geometrischen Probleme im Machine Learning.
Die Verlustoberfläche
Training = Bergab gehen auf einer Oberfläche
Jedes Machine-Learning-Modell hat Parameter – Gewichte und Bias. Die Verlustfunktion misst, wie falsch die Vorhersagen des Modells sind. Zusammen definieren diese eine Verlustoberfläche: eine Landschaft, wo jeder Punkt einem spezifischen Satz von Parameterwerten entspricht, und die Höhe ist der Verlust.
Für ein Modell mit 2 Parametern ist die Verlustoberfläche eine 3D-Landschaft, die du visualisieren kannst – Hügel, Täler und Ebenen. Für ein Modell mit 175 Milliarden Parametern (wie GPT-3) existiert die Verlustoberfläche im 175-Milliarden-dimensionalen Raum. Die Mathematik ist identisch.
Gradient Descent ist der Algorithmus, der diese Oberfläche navigiert. Der Gradient ist ein geometrisches Objekt – ein Vektor, der in die Richtung des steilsten Aufstiegs zeigt. Um Verlust zu reduzieren, gehe in die entgegengesetzte Richtung: den negativen Gradienten. Dies ist wörtlich bergab gehen.
Die Lernrate steuert die Schrittgröße. Zu groß und du überfliegst Täler. Zu klein und du kriechst. Der Gradient sagt dir die Richtung; die Lernrate sagt dir, wie weit zu treten.
Sattelpunkte, Minima, & die Geometrie hoher Dimensionen
Die Verlustoberfläche ist nicht einfach eine Schüssel
Eine naive Vorstellung von Training stellt sich eine glatte Schüssel mit einem einzelnen tiefsten Punkt vor. Die Realität ist viel komplexer:
Lokale Minima – Täler, die nicht die tiefsten sind. Gradient Descent kann hier stecken bleiben, zufrieden, dass jede Richtung hinaufgeht, auch wenn ein tieferes Tal anderswo existiert.
Sattelpunkte – geformt wie ein Pferdesattel. Der Verlust krümmt sich in einigen Dimensionen abwärts und in anderen aufwärts. Im 2D ist dies selten. In hohen Dimensionen sind Sattelpunkte exponentiell häufiger als lokale Minima. Ein kritischer Punkt im 1000-dimensionalen Raum muss sich in ALLEN 1000 Dimensionen aufwärts krümmen um ein lokales Minimum zu sein. Wenn auch nur eine Dimension sich abwärts krümmt, ist es ein Sattelpunkt.
Flache Plateaus – Regionen, wo der Gradient nahe Null ist. Training stagniert, weil es keine Steigung zum Folgen gibt.
Scharfe vs flache Minima – ein scharfes Minimum ist ein enges Tal. Ein flaches Minimum ist ein breites Tal. Forschung legt nahe, dass flache Minima besser generalisieren zu unsichtbaren Daten, weil kleine Störungen bei den Parametern (vom Rauschen in neuen Daten) den Verlust nicht dramatisch ändern.
SGD mit Momentum hilft, Sattelpunkte und scharfe Minima zu entkommen. Die Zufälligkeit von Stochastic Gradient Descent wirkt wie einen Ball auf der Oberfläche schütteln – er springt aus engen Fallen und findet breitere, flachere Täler.
SGD vs vollständiger Batch-Gradient Descent
Dies ist eine der wichtigsten praktischen Erkenntnisse im Machine-Learning-Training.
Wörter als Vektoren – Semantische Arithmetik
Bedeutung hat Richtung
Word2Vec, GloVe und moderne Transformer-Embeddings ordnen diskrete Token (Wörter, Subwörter) zu kontinuierlichen Vektorräumen. Das Ergebnis ist eine geometrische Welt, wo Bedeutung Koordinaten hat.
Das berühmte Beispiel: König - Mann + Frau ≈ Königin
Dies ist Vektor-Arithmetik. Der Vektor von 'Mann' zu 'König' repräsentiert das Konzept 'Königtum angewendet auf ein Männchen.' Der Vektor von 'Frau' zu 'Königin' repräsentiert 'Königtum angewendet auf ein Weibchen.' Diese Vektoren sind ungefähr parallel – gleiche Richtung, gleiche Beziehung, verschiedene Startpunkte.
Weitere geometrische Beziehungen, die beim Training auf Text entstehen:
- Paris - Frankreich + Italien ≈ Rom (Hauptstadt-von Beziehung)
- spazierte - spazieren + schwimmen ≈ schwamm (Vergangenheits-Tense Transformation)
- größer - groß + klein ≈ kleiner (Komparativ-Form)
Niemand programmierte diese Beziehungen. Das Modell entdeckte, dass Bedeutung geometrische Struktur hat, indem es Milliarden Wörter las. Richtungen im Embedding-Raum entsprechen semantischen Beziehungen. Dies ist eine der tiefsten geometrischen Entdeckungen im Machine Learning.
Die Mannigfaltigs-Hypothese
Hochdimensionale Daten leben auf niedrigdimensionalen Oberflächen
Ein 64×64 Grauwert-Gesichtsbild hat 4.096 Pixelwerte – es ist ein Punkt im 4.096-dimensionalen Raum. Aber nicht jeder Punkt in diesem Raum ist ein gültiges Gesicht. Die meisten zufälligen 4.096-dimensionalen Vektoren sehen wie statisches Rauschen aus, nicht wie Gesichter.
Die Mannigfaltigs-Hypothese besagt, dass echte hochdimensionale Daten tatsächlich auf oder nahe niedrigdimensionalen gekrümmten Oberflächen (Mannigfaltigkeiten) liegen, die im hochdimensionalen Raum eingebettet sind. Die Mannigfaltigkeit von Gesichtern könnte nur 50-dimensional sein – parametrisiert durch Faktoren wie Beleuchtungswinkel, Kopfpose, Ausdruck, Hautton, Alter.
Dies ist ein geometrischer Anspruch mit praktischen Konsequenzen:
- Dimensionalitätsreduktion (PCA, t-SNE, UMAP) funktioniert, weil die Daten ungefähr niedrigdimensional sind. Diese Algorithmen finden die Mannigfaltigkeit und projizieren auf sie.
- Autoencoders lernen, Daten in einen niedrigdimensionalen latenten Raum (die Mannigfaltigkeit) zu komprimieren und von ihm zu rekonstruieren.
- Generative Modelle (VAEs, Diffusions-Modelle) lernen die Mannigfaltigkeit und samplen neue Punkte auf ihr – generieren neue Gesichter, neue Musik, neuen Text, die echt aussehen, weil sie auf der gelernten Mannigfaltigkeit liegen.
Wenn dein Modell es versäumt zu generalisieren, ist eine geometrische Erklärung: es hat die falsche Mannigfaltigkeit gelernt. Die Trainingsdaten zeichneten eine Oberfläche auf, die nicht der echten Datenverteilung entspricht.
Vektor-Analogien
Die geometrische Struktur von Embedding-Räumen ist eines der überraschendsten Ergebnisse im modernen Machine Learning.
ROC-Kurven – Klassifizierungsqualität als Fläche
Evaluierungsmetriken leben in geometrischen Räumen
Eine ROC (Receiver Operating Characteristic) Kurve stellt True Positive Rate (Y-Achse) gegen False Positive Rate (X-Achse) dar, während du die Klassifizierungsschwelle von 0 bis 1 durchfeilst.
Dies ist ein geometrischer Raum mit sinnvollen Landmarken:
- (0, 1) – die obere linke Ecke – perfekte Klassifizierung. Jedes Positive erkannt, null Fehlalarme.
- (0, 0) – die untere linke – das Modell klassifiziert alles als negativ.
- (1, 1) – die obere rechte – das Modell klassifiziert alles als positiv.
- Die Diagonale von (0,0) zu (1,1) – ein zufälliger Klassifizierer. Bei jeder Schwelle hat er gleiche True-Positive und False-Positive Raten.
AUC (Fläche unter der Kurve) ist wörtlich eine geometrische Flächenmessung. AUC = 0,5 bedeutet das Modell ist zufällig (die Fläche unter der Diagonale). AUC = 1,0 bedeutet perfekte Klassifizierung (das gesamte Einheitsquadrat). Eine gute Modells ROC-Kurve beugt sich zur oberen linken Ecke, umhüllend mehr Fläche.
AUC hat eine schöne probabilistische Interpretation: es gleicht der Wahrscheinlichkeit, dass das Modell ein zufälliges positives Beispiel höher wertet als ein zufälliges negatives Beispiel. Aber geometrisch ist es einfach Fläche – und diese geometrische Einfachheit ist das, was es intuitiv macht.
Genauigkeits-Recall-Raum
Ein anderer geometrischer Tradeoff
Genauigkeits-Recall-Kurven leben in einem anderen geometrischen Raum als ROC-Kurven, und sie erzählen eine andere Geschichte.
Genauigkeit = von allem was das Modell als positiv markierte, welcher Anteil war tatsächlich positiv?
Recall = von all tatsächlichen Positiven, welchen Anteil hat das Modell gefunden?
Wenn du die Klassifizierungsschwelle senkst (mehr Dinge als positiv markierst), steigt Recall (du fängst mehr echte Positive), aber Genauigkeit nimmt typischerweise ab (du fängst auch mehr falsche Positive). Dieser Tradeoff zeichnet eine Kurve im Genauigkeits-Recall-Raum.
F1-Punktzahl = 2 × (Genauigkeit × Recall) / (Genauigkeit + Recall) – das harmonische Mittel. Geometrisch ist die F1-Punktzahl gleich dem Punkt auf der Genauigkeits-Recall-Kurve, wo Genauigkeit Recall gleicht. Es ist, wo die Kurve die Diagonale des Genauigkeits-Recall-Quadrats schneidet.
Durchschnittliche Genauigkeit (AP) = die Fläche unter der Genauigkeits-Recall-Kurve. Wie AUC-ROC, es fasst die ganze Kurve zu einer einzigen Zahl zusammen, die geometrische Fläche darstellt.
ROC-Kurven und Genauigkeits-Recall-Kurven sind komplementäre geometrische Ansichten des gleichen Modells. ROC-Kurven können auf unausgeglichenen Datensätzen täuschend optimistisch sein (99% negative Klasse). Genauigkeits-Recall-Kurven bleiben informativ, weil sie sich auf die positive Klasse konzentrieren.
AUC-ROC-Interpretation
Zu verstehen, was AUC-ROC geometrisch misst, hilft dir zwischen Modellen zu wählen.
Transformer – Skalarprodukte als Aufmerksamkeit
Aufmerksamkeit ist ein geometrisches Ähnlichkeitsmaß
Die Transformer-Architektur – die Grundlage moderner Sprachmodelle – ist auf eine geometrische Operation gebaut: das Skalarprodukt.
Für jedes Token in einer Sequenz berechnet der Transformer drei Vektoren: Anfrage (Q), Schlüssel (K) und Wert (V), jede erhalten durch Multiplizieren der Input-Einbettung mit gelernten Gewichtsmatrizen.
Der Aufmerksamkeitsscore zwischen zwei Tokens ist: Score = Q · K^T / √d
Dies ist ein skaliertes Skalarprodukt – ein geometrisches Ähnlichkeitsmaß. Wenn Q und K in die gleiche Richtung zeigen (kleiner Winkel zwischen ihnen), ist das Skalarprodukt groß: dieser Schlüssel ist hochgradig relevant für diese Anfrage. Wenn sie senkrecht sind, ist das Skalarprodukt Null: irrelevant.
Die Scores werden durch Softmax passiert um eine Wahrscheinlichkeitsverteilung zu erzeugen: Aufmerksamkeitsgewichte, die zu 1 summieren. Die Ausgabe ist die gewichtete Summe von Wertvektoren, wo die Gewichte durch geometrische Ausrichtung bestimmt werden.
In einem Satz wie 'Die Katze saß auf der Matte, weil es müde war,' berechnet Aufmerksamkeit: für das Wort 'es,' welche anderen Wörter haben die meiste geometrische Ausrichtung? Wenn der Q-Vektor für 'es' sich am meisten dem K-Vektor für 'Katze' angleicht, beachtet das Modell die 'Katze' – löst die Pronominal-Referenz durch Geometrie.
Multi-Head Aufmerksamkeit – Mehrfache geometrische Perspektiven
Warum mehrfache Köpfe?
Self-Attention mit einem einzigen Satz von Q, K, V Matrizen berechnet eine Art von geometrischer Ausrichtung. Aber Sprache hat viele Arten von Beziehungen – syntaktisch, semantisch, positionell, referenziell.
Multi-Head Aufmerksamkeit nutzt mehrfache Sätze von Q, K, V Projektionsmatrizen, jeweils projizierend in einen anderen Unterraum der Einbettung. Jeder Kopf misst Ausrichtung in seinem eigenen geometrischen Unterraum.
Was Forscher sehen, wenn sie Aufmerksamkeitsköpfe inspizieren:
- Kopf 1 könnte auf das vorherige Wort aufpassen (positionelle Nähe)
- Kopf 2 könnte auf das Verb von dem Subjekt aufpassen (syntaktische Abhängigkeit)
- Kopf 3 könnte auf semantisch verwandte Wörter früher im Kontext aufpassen
- Kopf 4 könnte auf das neueste Nomen aufpassen (Koreferenz)
Jeder Kopf ist eine andere geometrische Linse auf die gleichen Daten. Die Projektionen rotieren und skalieren den Einbettungsraum unterschiedlich, machen verschiedene Beziehungen durch Ausrichtung sichtbar.
Dies ist warum Transformer Modelle mit einem einzelnen Aufmerksamkeitsmechanismus übertreffen. Ein einzelnes Skalarprodukt im vollen Einbettungsraum erfasst eine Vorstellung von Ähnlichkeit. Mehrfache Skalarprodukte in verschiedenen Unterräumen erfassen mehrfach, komplementäre Vorstellungen simultan.
Multi-Head Aufmerksamkeit
Multi-Head Aufmerksamkeit ist eine der Schlüsselarchitektur-Innovationen von Transformer.
Machine Learning ist angewandte Geometrie
Der verbindende Faden
Schau, was wir behandelt haben. Jedes Major-Konzept im Machine Learning hat einen geometrischen Kern:
Daten = Punkte im hochdimensionalen Raum
Merkmale = Dimensionen dieses Raums
Ähnlichkeit = Distanz oder Winkel zwischen Punkten
Klassifizierung = Finden geometrischer Grenzen zwischen Klassen
Training = Navigation einer Verlustoberfläche durch Folgen von Gradienten
Embeddings = Gelernte Koordinatensysteme, wo Geometrie Bedeutung codiert
Evaluierung = Flächenbereiche unter Kurven in Metrik-Räumen
Aufmerksamkeit = Skalarprodukte messend winklige Ausrichtung
Dies ist kein Zufall. Machine Learning erbte seinen mathematischen Rahmen von linearer Algebra und Differentialgeometrie – Bereiche, die fundamentally über Raum, Form und Transformation sind.
Geometrie verstehen gibt dir etwas, das Auswendiglernen von Algorithmen nicht kann: Intuition. Wenn dein Modell fehlschlägt, legt die geometrische Ansicht vor, wo zu schauen. Sind die Klassen nicht separierbar? Schau auf die Grenze. Ist Training stecken geblieben? Untersuche die Verlustoberfläche. Sind Embeddings schlecht? Überprüfe, ob ähnliche Elemente geometrisch nah sind. Ist Aufmerksamkeit diffus? Inspiziere die Unterraum-Projektionen.
Die Geometrie ist die gleiche, ob du mit 3 Dimensionen oder 3 Milliarden arbeitest. Die Mathematik skaliert. Die Intuition überträgt sich. Dies ist, was Geometrie die universale Sprache von Machine Learning macht.
Geometrisches Debuggen
Wir haben Vektoren, Distanzen, Grenzen, Training, Embeddings, Evaluierung und Aufmerksamkeit behandelt – alles durch die Linse von Geometrie.