un — Geometrie in der Informatik und Maschinenlernen

un

guest

1 / ?

back to lessons

Daten leben in geometrischen Raum

Alles ist ein Vektor

Vektoren für Wortbedeutungen: Ähnlichkeit als Richtung

In der maschinelles Lernen leben Daten in geometrischen Raum. Jeder Datensatz mit N Merkmalen ist ein Punkt im N-dimensionalen Raum. Das ist keine Metapher: Es ist die wörtliche mathematische Grundlage jeder Algorithmus.

Eine handschriftliche Ziffernabbildung (28×28 Pixel) ist ein Punkt im 784-dimensionalen Raum. Jeder Pixel ist eine Koordinate. Zwei ähnlich aussehende Ziffern sind in diesem Raum in der Nähe voneinander. Zwei verschiedene Ziffern sind weit entfernt voneinander.

Ein Wortvektor ordnet ein Wort einem Punkt im 300-dimensionalen Raum zu. Wörter mit ähnlichen Bedeutungen landen in derselben Nachbarschaft. 'Hund' & 'Welpen' sind nahe beieinander. 'Hund' & 'Parlament' sind weit entfernt voneinander.

Ein Benutzerprofil mit 50 Merkmalen (Alter, Kaufgeschichte, Klickmuster) ist ein Punkt im 50-dimensionalen Raum. Empfehlungssysteme finden Benutzer, die in diesem Raum 'in der Nähe' voneinander sind, und schlagen vor, was die geometrischen Nachbarn mögen.

Geometrie ist, wie wir über diese Räume nachdenken. Entfernung, Richtung, Winkel, Projektion: Das sind die grundlegenden Operationen des maschinellen Lernens.

Vektoroperationen: Die Bausteine

Der Skalarprodukt treibt alles voran

Drei Vektoroperationen sind im maschinellen Lernen von Bedeutung:

Vektoraddition: Kombinieren von Merkmalen oder Signalen. Wenn Sie zwei Wortvektoren addieren, erhalten Sie einen Vektor, der beide Konzepte miteinander vermengt darstellt.

Skalare Multiplikation: Ein Vektor skaliert sich, indem er seine Größe ändert, ohne die Richtung zu ändern. LernalGORITHMEN in Gradientenabstiegsverfahren sind Skalare Multiplikator.

Skalarprodukt: Das ist der Arbeitshengst. Das Skalarprodukt zweier Vektoren a und b ist a·b = |a||b|cos(θ), wobei θ der Winkel zwischen ihnen ist. Wenn die Vektoren normalisiert (Einheitslänge) sind, ist das Skalarprodukt der Kosinus des Winkels.

Kosinusähnlichkeit = cos(θ) = (a·b) / (|a||b|)

Diese einzige Formel treibt:

- Suchmaschinen: Dokumente finden, die einer Abfrage ähnlich sind

- Aufmerksamkeitsmechanismen: Entscheiden, welche Token voneinander relevant sind

- Empfehlungssysteme: Benutzerprofile zu Produktenprofilen abstimmen

- Abrufeunterstützte Erzeugung: Relevante Kontexte für Sprachmodelle finden

cos(θ) = 1 bedeutet, dass die Vektoren in genau die gleiche Richtung zeigen (identisches Bedeutungsverständnis). cos(θ) = 0 bedeutet, dass sie senkrecht stehen (unabhängig voneinander). cos(θ) = -1 bedeutet, dass sie in entgegengesetzten Richtungen zeigen (konträres Bedeutungsverständnis).

Kosinähnlichkeit

Die Kosinähnlichkeit ist eine der am häufigsten verwendeten Metriken in modernen maschinelles Lernalgorithmen.

Zwei Vektoren von Wortbedeutungen haben eine Kosinähnlichkeit von 0,95. Eine andere Paarung hat eine Kosinähnlichkeit von 0,12. Was sagen Ihnen jede Zahl über die Beziehung zwischen den Worten in jedem Paar?

Drei Wege, um Distanz zu messen

Die Wahl der Distanzmetrik ändert, was 'ähnlich' bedeutet

Drei Distanzmetriken: gleiche Punkte, verschiedene Bedeutungen

Gegeben zwei Punkte im Raum, gibt es viele Möglichkeiten, die 'Distanz' zwischen ihnen zu messen. Jede Metrik definiert eine andere Geometrie, und diese Geometrie bestimmt, was Ihre Modelle als 'ähnlich' betrachten.

Euklidische Distanz (L2): die gerade Linie. d = √(Σ(aᵢ - bᵢ)²). Das ist die 'wie ein Krähe fliegt' Distanz, die Ihre Intuition erwartet. Sie behandelt alle Dimensionen gleich und ist empfindlich gegenüber der Größe.

Manhattan-Distanz (L1): die Straßenecken-Distanz. d = Σ|aᵢ - bᵢ|. Wie durch Straßenecken zu laufen: Sie können nur entlang der Achsen gehen, nie diagonal. Sie ist weniger anfällig für Ausreißer in einzelnen Dimensionen, weil sie die Abweichungen nicht quadratisch bewertet.

Kosin-Distanz: misst den Winkel zwischen Vektoren, ohne die Größe zu berücksichtigen. d = 1 - cos(θ). Zwei Dokumente über das gleiche Thema haben kleine Kosin-Distanz, unabhängig von der Länge. Zwei gleich lange Dokumente über verschiedene Themen haben große Kosin-Distanz.

Die Wahl ist nicht willkürlich. Wenn die Größe relevant ist (Dosis eines Medikaments, Temperatur eines Reaktors), wird das euklidische Maß verwendet. Wenn Sie mehr an Verhältnissen als an absoluten Werten interessiert sind (Häufigkeitsverteilungen von Wörtern, Nutzervorlieben), wird der Kosinus verwendet. Wenn die Unterschiede einzelner Merkmale mehr bedeuten als die Gesamtmagnitude (Fehldiagnose, bei der ein piepsender Sensor bedeutsam ist), wird das Manhattandistanzmaß verwendet.

K-Nächste Nachbarn: reine Geometrie

KNN: Das einfachste geometrische Algorithmus

K-Nearest Neighbors ist der transparenteste geometrische Algorithmus in der maschinenlesenden Lernkraft. Es hat keine Trainingsphase: es IST die Trainingsdaten.

Um ein neues Punkt zu klassifizieren: finden Sie die K nächsten Punkte in den Trainingsdaten. Lassen Sie sie abstimmen. Die Mehrheitsklasse gewinnt. Das ist der gesamte Algorithmus.

Die Entscheidgrenze, die KNN erzeugt, ist ein Voronoi-Diagramm: eine Teilung des Raums, bei der jeder Punkt zum Bereich seines nächsten Trainingsbeispiels gehört. Die Grenzen sind die senkrechten Halbmesser zwischen benachbarten Trainingspunkten.

Hier ist der geometrische Einblick, der zählt: Die Wahl des Distanzmaßes ändert die Voronoi-Diagramm vollständig. Euklidische Distanz erzeugt gekrümmte, kreisförmige Grenzen. Manhattandistanz erzeugt diamantenförmige Grenzen. Kosinustiefe erzeugt Winkel, kegelförmige Grenzen.

Selbe Trainingsdaten. Selbe K. Verschiedenes Distanzmaß. Völlig verschiedene Modell. Die Geometrie IST das Modell.

Wahl eines Distanzmaßes

Distanzmaße sind nicht austauschbar: Die richtige Wahl hängt davon ab, was "ähnlich" für Ihre Daten bedeutet.

Warum könnten Sie die Kosinustiefe anstelle der euklidischen Distanz verwenden, um Dokumente zu vergleichen? Denken Sie darüber nach, was passiert, wenn zwei Dokumente über denselben Themen sprechen, aber eines ist viel länger.

Hyperebenen: Flache Grenzen in hoher Dimension

Jeder lineare Klassifikator findet eine Hyperebene

Entscheidungs-Grenzen: Linear, Nichtlinear und das Kernel-Trick

Ein linearer Klassifikator findet eine ebene Fläche, die zwei Klassen trennt. Die Dimensionalität dieser Fläche hängt von dem Raum ab:

- Im 2D-Raum ist die Grenze eine Linie (1-dimensional)

- Im 3D-Raum ist die Grenze eine Ebene (2-dimensional)

- Im 784D-Raum (MNIST-Digit-Bilder), ist die Grenze eine 783-dimensional Hyperebene

Das allgemeine Muster: In N-dimensionalen Raum ist die Entscheidungsgrenze eine (N-1)-dimensionale ebene Fläche, die als Hyperebene bezeichnet wird.

Logistische Regression, Support Vector Machines und Single-Layer Perceptrons sind alle Hyperebenen-Finder. Sie unterscheiden sich in DER ART, wie sie die beste Hyperebene finden:

- Logistische Regression maximiert die Wahrscheinlichkeit einer korrekten Klassifikation

- SVMs maximieren den geometrischen Abstand: die Entfernung von der Hyperebene zu den nächstgelegenen Datenpunkten

- Perceptrons finden einfach eine Hyperebene, die die Daten trennt, ohne eine Optimierung zu garantieren

Der Gewichtvektor eines linearen Klassifikators IST der Normalenvektor zur Hyperebene. Der Bias-Begriff verschiebt die Hyperebene von der Ursprungsposition. Diese sind geometrische Objekte mit geometrischen Interpretationen.

Jenseits von flachen Grenzen

Wenn Daten nicht linear separabel sind

Viele reale Probleme können nicht mit einer flachen Grenze gelöst werden. Stellen Sie sich zum Beispiel vor, man möchte Bilder von Katzen gegen Hunde klassifizieren: Keine einzelne Hyperebene in Bildschirmraum trennt sie sauber.

Zwei geometrische Strategien existieren:

Strategie 1: Das Kernel-Trick: Transformieren Sie die Daten in einen höherdimensionalen Raum, in dem sie linear separabel sind. Ein klassisches Beispiel: Punkte innerhalb eines Kreises (Klasse A) und Punkte außerhalb (Klasse B) im 2D. Keine Linie trennt sie. Fügen Sie jedoch eine dritte Dimension z = x² + y² hinzu, und die inneren Punkte (kleine x² + y²) liegen tief, während die äußeren Punkte (große x² + y²) hoch liegen. Jetzt trennt eine ebene Fläche sie perfekt.

SVMs mit Kernel-Funktionen tun dies implizit: Sie berechnen dot-Produkte im hochdimensionalen Raum ohne jemals den tatsächlichen hochdimensionalen Vektoren zu erstellen. Dies wird als 'Kernel-Trick' bezeichnet und ist eine rein geometrische Erkenntnis.

Strategie 2: Neuronale Netze: Stapeln Sie lineare Transformationen mit nichtlinearen Aktivierungsfunctionen. Jedes Layer führt eine lineare Transformation (Matrixmultiplikation = Drehung + Skalierung + Scherung) aus und fügt dann eine nichtlineare "Verbiegung" (ReLU, Sigmoid, Tanh) hinzu. Die Kombination vieler linearen-then-bend-Betriebe kann beliebige kontinuierliche Grenzformen approximieren.

Ein tiefes Neuronales Netz ist eine Folge geometrischer Transformations, die das Eingaberaum bis zur linearen Trennbarkeit der Klassen im letzten Layer verziehen.

Zerlegen von Zirkeldaten

Dies ist einer der wichtigsten geometrischen Probleme in der maschinelles Lernen.

In 2D haben Sie rote Punkte innerhalb eines Kreises und blaue Punkte außerhalb. Eine gerade Linie kann sie nicht trennen. Beschreiben Sie zwei geometrische Strategien, um dieses Problem zu lösen.

Verlustoberfläche

Training = Abwärtsgehen auf einer Oberfläche

Verlustlandschaft: Navigation der Oberfläche

Jedes maschinelles Lernalgorithmus hat Parameter: Gewichte und Biase. Die Verlustfunktion misst, wie falsch die Vorhersagen des Modells sind. Zusammen definieren sie eine Verlustoberfläche: eine Landschaft, bei der jeder Punkt einen bestimmten Satz von Parameterwerten repräsentiert und die Höhe den Verlust darstellt.

Für ein Modell mit 2 Parametern ist die Verlustoberfläche eine 3D-Landschaft, die Sie visualisieren können: Hügel, Täler und Ebenen. Für ein Modell mit 175 Milliarden Parametern (wie GPT-3) existiert die Verlustoberfläche im 175-Milliarden-dimensionalen Raum. Die Mathematik ist identisch.

Gradientenabstieg ist das Algorithmus, der diese Oberfläche durchquert. Der Gradient ist ein geometrisches Objekt: ein Vektor, der in die Richtung des steilsten Anstiegs zeigt. Um den Verlust zu reduzieren, bewegt man sich in die entgegengesetzte Richtung: den negativen Gradienten. Dies ist wörtlich bergabwandern.

Die Lernalpha steuert die Schrittgröße. Zu groß und Sie überschreiten Täler. Zu klein und Sie kriechen voran. Der Gradient zeigt Ihnen die Richtung; die Lernalpha zeigt Ihnen, wie weit Sie gehen sollten.

Sattelpunkte, Minima und die Geometrie hoher Dimensionen

Die Verlustlandschaft ist keine einfache Schüssel

Eine naive Vorstellung von der Ausbildung stellt eine glatte Schüssel mit einem einzigen tiefsten Punkt dar. Die Realität ist viel komplexer:

Lokale Minima: Täler, die nicht der tiefsten Stelle entsprechen. Gradientenabstieg kann hier hängenbleiben, zufrieden, dass jede Richtung nach oben geht, obwohl ein tieferes Tal anderswo existiert.

Sattelpunkte: ähneln einem Pferdesattel. Der Verlust krümmt sich in manchen Dimensionen nach unten und in anderen nach oben. In 2D ist dies selten. In hochdimensionalen Räumen sind Sattelpunkte exponential mehr als lokale Minima. Ein Kritischer Punkt im 1000-dimensionalen Raum muss in ALL 1000 Dimensionen nach oben krümmen, um ein lokales Minimum zu sein. Wenn sogar eine Dimension nach unten krümmt, ist es ein Sattelpunkt.

Flache Plateaus: Regionen, in denen der Gradient nahe Null ist. Die Ausbildung stockt, weil es keine Steigung gibt, die gefolgt werden kann.

Scharfe vs flache Minima: Ein scharfes Minimum ist ein schmales Tal. Ein flaches Minimum ist ein breites Tal. Forschungen zeigen, dass flache Minima besser generalisieren, weil kleine Veränderungen der Parameter (ausgelöst durch Geräusche in neuen Daten) den Verlust nicht dramatisch verändern.

SGD mit Momentum hilft, Sattelpunkte und scharfe Minima zu verlassen. Die Zufälligkeit des stochastischen Gradientenabstiegs wirkt sich wie ein Schütteln eines Balls auf der Oberfläche aus: Es springt aus engen Fallen heraus und findet breitere, flachere Täler.

SGD vs Vollbatch-Gradientenabstieg

Dies ist einer der wichtigsten praktischen Erkenntnisse in der maschinelles Lernen-Ausbildung.

Warum findet die stochastische Gradientenabstieg (SGD) oft bessere Lösungen als der vollbatch-Gradientenabstieg, aus einer geometrischen Perspektive?

Wörter als Vektoren: Semantische Arithmetik

Bedeutung hat Richtung

Einbettungsraum: Semantische Geometrie

Word2Vec, GloVe und moderne Transformer-Einbettungen mappen diskrete Token (Wörter, Unterwörter) auf kontinuierliche Vektorräume. Das Ergebnis ist eine geometrische Welt, in der Bedeutung Koordinaten hat.

Das berühmte Beispiel: König - Mann + Frau ≈ Königin

Das ist Vektorarithmetik. Der Vektor von 'Mann' zu 'König' repräsentiert das Konzept 'Königlichkeit, angewendet auf einen Mann'. Der Vektor von 'Frau' zu 'Königin' repräsentiert 'Königlichkeit, angewendet auf eine Frau'. Diese Vektoren sind ungefähr parallel: gleiche Richtung, gleiche Beziehung, verschiedene Ausgangspunkte.

Andere geometrische Beziehungen, die sich aus der Ausbildung auf Text ergeben:

- Paris - Frankreich + Italien ≈ Rom (Hauptstadt-Beziehung)

- ging - gehen + schwimmen ≈ geschwommen (Zeitpunkt-Transformation)

- größer - groß + klein ≈ kleiner (Vergleichsform)

Niemand hat diese Beziehungen programmiert. Das Modell hat entdeckt, dass Bedeutung eine geometrische Struktur hat, indem es Milliarden von Worten gelesen hat. Richtungen im Einbettungsraum entsprechen semantischen Beziehungen. Das ist eine der profundesten geometrischen Entdeckungen in der Maschinenlernen.

Mannigfaltigkeits-Hypothese

Hochdimensionale Daten leben auf niedrigdimensionalen Oberflächen

Ein 64×64 Graustufen-Gesichtsbild hat 4.096 Pixelwerte: Es ist ein Punkt im 4.096-dimensionalen Raum. Aber nicht jeder Punkt in diesem Raum ist ein gültiges Gesicht. Die meisten zufälligen 4.096-dimensionalen Vektoren sehen aus wie statischer Rausch, nicht wie Gesichter.

Die Mannigfaltigkeits-Hypothese besagt, dass hochdimensionale Daten aus der realen Welt tatsächlich auf oder in der Nähe niedrigdimensionaler gekrümmter Oberflächen (Mannigfaltigkeiten) im hochdimensionalen Raum liegen. Die Mannigfaltigkeit von Gesichtern könnte nur 50-dimensional sein: parameterisiert durch Faktoren wie Lichtwinkel, Kopfhaltung, Ausdruck, Hautton, Alter.

Das ist ein geometrischer Anspruch mit praktischen Folgen:

- Dimensionreduktion (PCA, t-SNE, UMAP) funktioniert, weil die Daten ungefähr niedrigdimensional sind. Diese Algorithmen finden die Mannigfaltigkeit und projizieren sie ab.

- Autoencoder lernen, Daten in einen niedrigdimensionalen latenten Raum (die Mannigfaltigkeit) zu komprimieren und daraus wiederzukonstruieren.

- Generative Models (VAEs, diffusion models) lernen die Mannigfaltigkeit und stichprobenartig neue Punkte darauf: Erzeugung neuer Gesichter, neuer Musik, neuer Texte, die echt aussehen, weil sie auf die gelernte Mannigfaltigkeit liegen.

Wenn Ihr Modell nicht generalisieren kann, liegt eine geometrische Erklärung vor: Es hat die falsche Mannigfaltigkeit gelernt. Die Trainingsdaten haben eine Oberfläche nachgezeichnet, die der tatsächlichen Datenverteilung nicht entspricht.

Vektoranalogien

Die geometrische Struktur von Embeddings-Räumen ist einer der überraschendsten Ergebnisse in der modernen Maschinenlernen.

Wenn Wortvektoren die Bedeutung geometrisch erfassen, was bedeutet es, wenn wir sagen, dass der Vektor von 'Mann' zu 'König' ungefähr parallel zum Vektor von 'Frau' zu 'Königin' ist? Welche geometrische Konzepte sind am Werk?

AUC-Kurven: Qualitätsbewertung der Klassifikation als Fläche

Bewertungsmetriken leben in geometrischen Räumen

ROC-Raum: Qualitätsbewertung der Klassifikation als Geometrie

Eine AUC (Receiver Operating Characteristic)-Kurve zeigt die Richtige Positivraten (y-Achse) gegenüber der Falsch-Positivraten (x-Achse) an, während Sie den Klassifizierungsschwellenwert von 0 auf 1 abtun.

Das ist ein geometrischer Raum mit bedeutsamen Landmarken:

- (0, 1): die obere linke Ecke: perfekte Klassifikation. Jedes Positive wird erkannt, ohne falsche Alarmanzeigen.

- (0, 0): die untere linke Ecke: Das Modell klassifiziert alles als negativ.

- (1, 1): die oberste rechte: Die Modellklasse klassifiziert alles als positiv.

- Die Diagonale von (0,0) zu (1,1): Ein zufälliger Klassifikator. Bei jedem Schwellenwert hat es gleich viele wahre positive und falsche positive Raten.

AUC (Fläche unter der Kurve) ist buchstäblich eine messbare geometrische Fläche. AUC = 0,5 bedeutet, dass das Modell zufällig ist (die Fläche unter der Diagonale). AUC = 1,0 bedeutet eine perfekte Klassifikation (das gesamte Einheitsquadrat). Eine gute Modelleigenschaft ist, dass die ROC-Kurve in Richtung der oberen linken Ecke gebogen ist und mehr Fläche einnimmt.

AUC hat eine schöne wahrscheinlichkeitstheoretische Interpretation: Es ist gleich der Wahrscheinlichkeit, dass das Modell einen zufälligen positiven Beispiel höher bewertet als ein zufälliges negatives Beispiel. Aber geometrisch betrachtet ist es einfach die Fläche: Und diese geometrische Einfachheit ist, was es intuitiv macht.

Präzision-Erinnerungsraum

Eine andere geometrische Aufgabe

Präzisionserinnerungskurven befinden sich in einem anderen geometrischen Raum als ROC-Kurven und erzählen eine andere Geschichte.

Präzision = Von allem, was das Modell als positiv gekennzeichnet hat, was Anteil war, tatsächlich positiv?

Erinnerung = Von allen tatsächlichen Positiven, was Anteil hat, fand das Modell es?

Wenn Sie den Klassifizierungsschwellenwert verringern (mehr Dinge als positiv markieren), erhöht sich die Erinnerung (Sie fangen mehr echte Positiva ein), aber die Präzision nimmt in der Regel ab (Sie fangen auch mehr falsche Positiva ein). Diese Aufgabe verfolgt eine Kurve im Präzision-Erinnerungsraum.

F1-Score = 2 × (Präzision × Erinnerung) / (Präzision + Erinnerung): die harmonische Mittelwert. Geometrisch betrachtet ist der F1-Score der Punkt auf der Präzision-Erinnerungskurve, an dem Präzision gleich Erinnerung ist. Es ist der Punkt, an dem die Kurve die Diagonale des Präzision-Erinnerungsquadrats kreuzt.

Durchschnittliche Präzision (AP) = die Fläche unter der Präzision-Erinnerungskurve. Wie AUC-ROC fasst es auch die gesamte Kurve in eine einzige Zahl zusammen, die die geometrische Fläche darstellt.

ROC-Kurven und Präzision-Erinnerungskurven sind komplementäre geometrische Ansichten desselben Modells. ROC-Kurven können irreführend optimistisch sein, wenn das Datensatz ungleich verteilt ist (99% negative Klasse). Präzision-Erinnerungskurven bleiben informativ, weil sie sich auf die positive Klasse konzentrieren.

AUC-ROC-Interpretation

Das Verständnis, was AUC-ROC geometrisch misst, hilft Ihnen, zwischen Modellen zu wählen.

Zwei Modelle haben die gleiche Genauigkeit (85%). Modell A hat einen AUC-ROC-Wert von 0,92. Modell B hat einen AUC-ROC-Wert von 0,78. Warum könnten Sie Modell A vorziehen? Was erzählt die geometrische Differenz in ihren ROC-Kurven Ihnen?

Transformers: Dot-Produkte als Aufmerksamkeit

Aufmerksamkeit ist eine geometrische Ähnlichkeitsmessung

Aufmerksamkeit = geometrische Ausrichtung zwischen Query und Keys

Die Transformer-Architektur: die Grundlage moderner Sprachmodelle: basiert auf einer geometrischen Operation: dem Dot-Produkt.

Für jedes Token in einer Sequenz berechnet der Transformer drei Vektoren: Query (Q), Key (K) und Value (V), die durch Multiplikation des Eingabepuffers mit gewichteten Matrizen ermittelt werden.

Die Aufmerksamkeitskennwert zwischen zwei Tokens ist: score = Q · K^T / √d

Dies ist ein skaliertes Dot-Produkt: eine geometrische Ähnlichkeitsmessung. Wenn Q und K in die gleiche Richtung zeigen (kleiner Winkel zwischen ihnen), ist das Dot-Produkt groß: diese Schlüssel ist für diese Abfrage sehr relevant. Wenn sie senkrecht zueinander stehen, ist das Dot-Produkt Null: irrelevant.

Die Scores werden durch Softmax durchgegeben, um eine Wahrscheinlichkeitsverteilung zu erstellen: Aufmerksamkeitsgewichte, die sich aufaddieren. Das Ergebnis ist das gewichtete Mittel der Value-Vektoren, wobei die Gewichte durch die geometrische Ausrichtung bestimmt werden.

In einem Satz wie 'The cat sat on the mat because it was tired,' berechnet die Aufmerksamkeit: für das Wort 'it', welche anderen Wörter haben die größte geometrische Ausrichtung? Wenn der Q-Vektor für 'it' am engsten mit dem K-Vektor für 'cat' ausgerichtet ist, richtet sich das Modell auf 'cat' aus: die Pronomenreferenz wird durch Geometrie gelöst.

Multi-Head-Aufmerksamkeit: Mehrere geometrische Perspektiven

Warum mehrere Köpfe?

Selbstaufmerksamkeit mit einer einzelnen Menge von Q, K, V-Matrizen berechnet einen Typ von geometrischer Ausrichtung. Aber Sprache hat jedoch viele Arten von Beziehungen: syntaktisch, semantisch, positionell, referenziell.

Mehrfachkopfaufmerksamkeit verwendet mehrere Q, K, V-Projektionsmatrizen, die jeweils in einen unterschiedlichen Unterraum der Embedding projizieren. Jeder Kopf misst die Ausrichtung in seinem eigenen geometrischen Unterraum.

Was Forscher beobachten, wenn sie die Aufmerksamkeitsköpfe untersuchen:

- Kopf 1 könnte auf das vorherige Wort achten (positionelle Nähe)

- Kopf 2 könnte auf das Verb vom Subjekt achten (syntaktische Abhängigkeit)

- Kopf 3 könnte auf semantisch verwandte Wörter früher im Kontext achten

- Kopf 4 könnte auf das kürzlichste Substantiv achten (Koreferenz)

Jeder Kopf ist ein unterschiedliches geometrisches Objektiv auf die gleichen Daten. Die Projektionen drehen und skaliert den Embedding-Raum anders, was verschiedene Beziehungen sichtbar macht, indem sie ausgerichtet werden.

Das erklärt, warum Transformers besser abschneiden als Modelle mit einer einzelnen Aufmerksamkeitsmechanik. Ein einzelner Skalarprodukt in dem vollständigen Embedding-Raum erfasst eine Vorstellung von Ähnlichkeit. Mehrere Skalarprodukte in verschiedenen Unterräumen erfassen mehrere, komplementäre Vorstellungen gleichzeitig.

Mehrfachkopfaufmerksamkeit

Mehrfachkopfaufmerksamkeit ist eine der Schlüsselarchitekturinnovationen des Transformers.

Warum hilft in einem Transformer die Verwendung mehrerer Aufmerksamkeitsköpfe im Vergleich zu einem einzelnen Kopf? Antwort in Bezug auf geometrische Unterräume.

Maschinelles Lernen Anwendungen der Geometrie

Der verbindende Faden

Schau dir an, was wir behandelt haben. Jeder wichtige Begriff der Maschinenlernen hat einen geometrischen Kern:

Daten = Punkte im hochdimensionalen Raum

Merkmale = Dimensionen dieses Raumes

Ähnlichkeit = Entfernung oder Winkel zwischen Punkten

Klassifikation = Finden von geometrischen Grenzen zwischen Klassen

Training = Navigation einer Verlustoberfläche entlang von Gradienten

Embeddings = gelernte Koordinatensysteme, in denen die Geometrie Bedeutung kodiert

Evaluation = Flächen unter Kurven in metrischen Räumen

Aufmerksamkeit = Skalarprodukte, die die achsensimile Ausrichtung messen

Das ist kein Zufall. Das maschinelles Lernen hat sein mathematisches Rahmenwerk von linearem Algebra und differenzialgeometrischen ererbt: Felder, die grundlegend über Raum, Form und Transformation sind.

Das Verständnis der Geometrie gibt dir etwas, was das Merken von Algorithmen nicht geben kann: Anschauung. Wenn dein Modell versagt, gibt die geometrische Sichtweise Hinweise, wo man hinsehen sollte. Sind die Klassen nicht trennbar? Schau auf die Grenze. Ist das Training stockend? Untersuche die Verlustlandschaft. Sind Embeddings schlecht? Prüfe, ob ähnliche Artikel geometrisch nahe beieinander sind. Ist die Aufmerksamkeit diffus? Untersuche die Projektionen in Unterraum.

Die Geometrie ist gleich, ob du mit 3 Dimensionen oder 3 Milliarden arbeitest. Die Mathematik skaliert. Die Anschauung überträgt sich. Das ist, was die Geometrie zur universellen Sprache des maschinellen Lernens macht.

Geometrische Fehlerbehebung

Wir haben Vektoren, Entfernungen, Grenzen, Training, Embeddings, Bewertung und Aufmerksamkeit behandelt: alles durch den Blickwinkel der Geometrie.

Wähle einen Begriff aus dieser Lektion und erkläre, wie das Verständnis seiner geometrischen Natur deine Art und Weise, wie du ein Modell, das ihn verwendet, debuggen oder verbessern würdest, ändert. Sei spezifisch.