un — Geometrie des Unhamming

un

guest

1 / ?

back to lessons

Hamings geometrische Intuition

Hamming sah Geometrie überall

Hamings Kapitel 9 beginnt mit einer Warnung: Geometrische Intuition bricht in hohen Dimensionen zusammen. Bei 3D füllt eine Kugel den meisten enthaltenden Würfel. Bei 10D nimmt die Kugel weniger als 0,2% des Würfelsvolumens ein. Bei 100D rundet der Bruch zu null. Das Volumen konzentriert sich nahe der Oberfläche. Punkte klumpen in Ecken, nicht im Zentrum.

Seine Fehlerkorrekturcodes nutzten dies direkt. Hamming-Codes packen Codewörter in n-dimensionalen binären Raum, so dass jedes Codewort von einer Kugel umgeben ist, die Fehler korrigieren kann. Die Geometrie bestimmt, wie viele Fehler korrigiert werden können. Kugelpackung in n-Raum ist ein mathematisches Problem mit echten Risiken: Packen Sie die Kugeln dichter, korrigieren Sie mehr Fehler.

Das gleiche geometrische Versagen tritt bei der algorithmischen Komplexität auf. Bei kleinem N sehen O(N²) und O(N) auf einem Diagramm fast identisch aus. Der Abstand zwischen ihnen scheint bewältigbar. Bei großem N explodiert der Abstand - genau wie das Volumen der Kugel in hohen Dimensionen zusammenbricht. Was bei kleinem Maßstab empfänglich erscheint, wird im Maßstab unerreichbar.

Die Form jeder Komplexitätsklasse

Zeichnen von Komplexität

Jede Komplexitätsklasse hat eine geometrische Form:

- O(1): eine horizontale Linie. Der gleiche Kostenbetrag unabhängig von N. Keine Neigung.

- O(log N): eine sanft nach oben krumme Kurve, die flacher wird. Verdoppelt sich, wenn N quadriert wird. Wächst proportional zur Anzahl der Ziffern in N.

- O(N): eine durch den Ursprung verlaufende Diagonale. Der Kostenbetrag wächst proportional zu N.

- O(N log N): eine etwas steilere Diagonale. Eine Linie, die sehr sanft nach oben krumm wird.

- O(N²): eine Parabel. Bei N=100: 10.000 Operationen. Bei N=1.000: 1.000.000 Operationen.

![/static/diagrams/unhamming_complexity_curves.svg]

Der kritische Einblick: der Verhältnis zwischen zwei Komplexitätsklassen ist selbst eine Funktion von N. Bei N=10 kostet O(N²) 10× mehr als O(N). Bei N=1.000 kostet O(N²) 1.000× mehr. Bei N=1.000.000 kostet es 1.000.000× mehr. Der Abstand wächst nicht nur - er wächst mit der Rate von N selbst.

Dies ist der geometrische Argument, warum MOAD-0001-Patches relevant sind. Das Verschieben eines Abhängigkeitslösers von O(N²) auf O(N) ist kein konstanter Geschwindigkeitsschub. Bei N=50.000 Paketen handelt es sich um einen 50.000-fachen Geschwindigkeitsschub. Bei N=100.000 handelt es sich um einen 100.000-fachen Geschwindigkeitsschub. Der Wert des Patches wächst mit der Größe des Problems.

Das wachsende Defizit

O(N²) und O(N) erzeugen beide korrekte Ergebnisse.

Bei N=10: O(N²) kostet 100 Operationen, O(N) kostet 10 Operationen. Verhältnis: 10×.

Bei N=1.000: O(N²) kostet 1.000.000 Operationen, O(N) kostet 1.000 Operationen.

Wie viel langsamer ist O(N²) im Vergleich zu O(N) bei N=1.000? Welche geometrische Form beschreibt das wachsende Defizit zwischen diesen beiden Kurven, wenn N wächst?

Graphen als Geometrie

Die gerichtete acyclische Graphen (DAGs)

Ein DAG (gerichteter acyclischer Graph) ist eine geometrische Struktur: Knoten, die durch gerichtete Kanten verbunden sind, ohne Zyklen. Software-Abhängigkeitsgraphen, Build-Pipelines und Datenflussarchitekturen bilden alle DAGs.

Fabrikmodell-DAG mit Workaholic- & Glutton-Knoten

Jeder Knoten verfügt über geometrische Eigenschaften, die durch die Anzahl seiner Kanten gemessen werden:

- EinGrad: Anzahl der Kanten, die zum Knoten hinweisen. Ein hoher EinGrad bedeutet, dass viele aufsteigende Abhängigkeiten diesem Knoten zuführen.

- AusGrad: Anzahl der Kanten, die vom Knoten abgehen. Ein hoher AusGrad bedeutet, dass viele nach unten abhängige Verbraucher auf diesen Knoten angewiesen sind.

- Zwischenheit: EinGrad + AusGrad. Misst, wie viele Pfade durch diesen Knoten verlaufen. Ein Knoten mit hoher Zwischenheit befindet sich an einer Kreuzung im Graphen.

- Sturzscore: Geschwindigkeitsschub × EinGrad. Misst, wie viel Arbeit downstream flutet, wenn dieser Engpass beseitigt wird.

Das Fabrikmodell verleiht diesen geometrischen Eigenschaften eine physische Bedeutung:

- Hoher Betweenness + hoher Surge Score = workaholic Knoten. Entferne diesen Engpass ohne Staging downstream = Zusammenbruch.

- Hoher Out-Degree + niedriger Surge Score = Gluttnode. Verbraucht ohne zu produzieren. Der Computer, der vergisst zu stoppen.

Surge & Betweenness in der Praxis

Lesen einer DAG

Überlege dir eine 5-Knoten-Kette: A → B → C → D → E, plus eine zusätzliche Kante B → D.

- A: in-Degree 0, out-Degree 1, Betweenness 1. Quellknoten. Es wird nichts hineingefüttert. Ein Verbraucher.

- B: in-Degree 1 (von A), out-Degree 2 (nach C und nach D), Betweenness 3. Füttert zwei downstream-Knoten - ein Fan-out-Punkt.

- C: in-Degree 1 (von B), out-Degree 1 (nach D), Betweenness 2. Ein Durchgangsknoten.

- D: in-Degree 2 (von B und von C), out-Degree 1 (nach E), Betweenness 3. Empfängt von zwei Pfaden.

- E: in-Degree 1 (von D), out-Degree 0, Betweenness 1. Senkknoten.

B und D teilen sich die höchste Betweenness (3). B ist der Fan-out: er füttert zwei Knoten. D ist der Konvergenzpunkt: er erhält von zwei Pfaden. Nach einem MOAD-0001-Patch an C erhält D Surge von beiden Pfaden B→D und C→D gleichzeitig.

Berechnung von Knotenmetriken

Eine Abhängigkeitsgraph: A → B → C → D → E (eine Kette), plus eine zusätzliche Kante B → D.

Knoten C hat eine gemessene Beschleunigung von 50× nach einem MOAD-0001-Patch.

Berechne C's in-Degree, out-Degree, Betweenness und Surge Score. Welcher Knoten hat nach dem Patch die höchste Risiko von MOAD-0005 und warum?

Das Flatland-Defekt

MOAD-0007: räumliche Daten als flache Liste abfragen

MOAD-0007 (die Flatland-Defekt): Die Abfrage räumlicher Daten als flache Liste ignoriert die geometrische Struktur der Daten. Jede Abfrage prüft alle N Objekte. O(N) pro Abfrage. Mit M Abfragen: O(M × N). In der Skala: katastrophal.

BVH gegen flache Liste räumliche Abfrage

Ein Echtzeit-Raycaster prüft jedes Objekt in einer Szene gegen jeden Strahl. Bei 60 Frames pro Sekunde, mit 100 Strahlen pro Frame und 10.000 Szene-Objekten: 60.000.000 Intersectionsprüfungen pro Sekunde. All davon vermeidbar.

Das geometrische Erkenntnis: Der Raum hat Struktur. Objekte clustern. Ein Strahl, der das linke Halb der Szene verfehlt, verfehlt jeden Objekt im linken Halb. Eine flache Liste kann dies nicht ausnutzen - sie prüft jedes Objekt ungeachtet der räumlichen Position. Eine räumliche Datenstruktur kann.

Das BVH: Binärsuche in 3D

Wie ein BVH funktioniert

Ein BVH (Bounding Volume Hierarchy) zerlegt den 3D-Raum in einen Baum aus übereinander liegenden verbindenden Rechtecken. Jede internen Knoten enthält ein verbindendes Rechteck, das die Geometrie seiner Kinder enthält.

Eine Raycast-Abfrage:

1. Testen Sie das verbindende Rechteck des Stamms. Wenn der Strahl verfehlt, beenden Sie sofort - die gesamte Szene wird gestutzt.

2. Wenn der Strahl trifft, gehen Sie zu den Kindern vor. Testen Sie jedes Kind verbindendes Rechteck.

3. Für jedes Kind, das verfehlt: stutzen Sie das Unterblatt. Für jedes Kind, das trifft: gehen Sie tiefer.

4. Bei Blattknoten: Testen Sie die tatsächliche Geometrie.

Geometrie der Ausschaltung: Bei jedem Niveau werden nicht einschlagende Zweige eliminiert. Mit einem ausgewogenen BVH der Tiefe d: 2^d Blattknoten existieren, aber ein einzelner Strahl benötigt maximal O(log N) Vergleiche für den gestutzten Pfad.

Dies ist das gleiche geometrische Argument wie die binäre Suche: Jeder Vergleich halbiert den verbleibenden Suchraum. Binäre Suche halbiert eine sortierte Array. Ein BVH halbiert den sichtbaren 3D-Raum. Die Struktur ist identisch - ein ausgewogener binärer Baum mit Ausschaltung bei jedem Knoten.

Ein MOAD-0007-Fix: Ersetzen Sie die flache Liste durch ein BVH. Übertreten von O(N) pro Abfrage zu O(log N) pro Abfrage. Bei N=1.024 Objekten, O(log₂ 1.024) = 10 Vergleiche anstelle von 1.024.

Berechnung des BVH-Geschwindigkeitssprungs

Eine Spiel-Szene hat 1.024 Objekte.

Ohne BVH: Ein Raycast prüft alle 1.024 Objekte.

Mit einem ausgeglichenen BVH der Tiefe 10 (2^10 = 1.024 Blätter): Ein Raycast durchquert höchstens 10 Ebenen, mit 2 Kind-Vergleichen pro Ebene.

Schätzen Sie die maximale Anzahl von verbindenden Rechtecksprüfungen, die das BVH für eine Raycast-Abfrage benötigt, und berechnen Sie den Geschwindigkeitssprung im Vergleich zur flachen Scan.