un — Ein Sprachmodell wachsen lassen: Phasenbasierte Würfelsteuerung [DESCRIPTION /]

un

Gast

1 / ?

Das Lock-In-Problem

Ein Bandit, der immer gewinnt

Vanilla UCB1 berechnet die Scores jeden Schritt neu. Wählt einen Arm. Zieht ihn. Aktualisiert n_k & mean_reward(k). Wiederholt. In einem langen Training mit vielen Quellen kann ein einzelner Arm eine Serie hoher Belohnungen sammeln, seinen Mittelwert in die Höhe treiben & nahezu unbesiegbar werden. Andere Arme stagnieren bei niedrigem n_k mit veralteten Mittelwerten. Lock-in.

Lock-in schadet ANDREA auf zwei Weisen:

1. Vielfaltszusammenbruch. Ein Modell, das 90 % der Schritte auf eine Quelle trainiert, lernt die stilistischen Eigenheiten dieser Quelle. Generierte Samples drifteten zu repetitiven Mustern, die der dominanten Quelle entsprechen.

2. Veraltete Erkundung. Arme mit veralteten Mittelwerten können nicht wiederhergestellt werden. Ein Arm, dessen Mittelwert früh gesunken ist, bleibt bei diesem Mittelwert stecken, auch wenn das Modell nun genug Kapazität hat, Belohnung daraus zu extrahieren.

Eine Phase kauft Zeit

Lösung: Halte für eine Phase (mehrere Schritte) einen festen Satz von Fokusarmen, bevor neu evaluiert wird. Eine Phase von 14 Schritten bedeutet, dass 14 Forward-Pässe die gleichen Fokusarme treffen. Mittelwerte der Belohnungen stabilisieren sich. Stochastisches Rauschen wird gemittelt. Dann rollt der Bandit neu.

Variable Phasenlänge

ANDREA wählt die Phasenlänge zufällig uniform aus {7, 14, 21, 28, 42} Schritten an jeder Phasengrenze. Fünf Werte, uniform zufällig. Kurze Phasen (7) reagieren schnell auf schlechte Auswahlen; lange Phasen (42) lassen stabile Fokusmengen voll ausnutzen. Die Obergrenze begrenzt den Schaden: höchstens 42 Schritte für eine schlechte Fokuskonfiguration, bevor erzwungener Neuwurf.

Dice Phase Timeline

Phasenlängen-Statistiken

ANDREA wählt die Phasenlänge uniform zufällig aus {7, 14, 21, 28, 42}. Berechne (a) die erwartete (durchschnittliche) Phasenlänge, (b) die maximale Phasenlänge, (c) über 1.000 Phasen die erwarteten Gesamtschritte. Zeige deine Rechenwege.

1d3 (2-Auge) & 1d4 (3-Auge)

Würfel-Notation

Tabletop-Notation: NdM bedeutet, N Würfel mit je M Seiten zu würfeln. 1d3 würfelt einen 3-seitigen Würfel und ergibt einen Wert in {1, 2, 3}. 1d4 würfelt einen 4-seitigen Würfel und ergibt {1, 2, 3, 4}. ANDREA erlaubt konventionell auch das Ergebnis 0: Ein Wurf von 0 bedeutet vollständig zufällige Phase (kein UCB-Fokus-Arme).

2-Auge vs. 3-Auge-Konfigurationen

ANDREA's Trainingskonfiguration wählt einen von zwei Würfelmodi:

2-Augen-Konfig (1d3). Mögliche Fokussierungsarm-Anzahlen: {0, 1, 2, 3}. Ergebnis 0 für zufällige Phase reserviert.

3-Augen-Konfig (1d4). Mögliche Fokussierungsarm-Anzahlen: {0, 1, 2, 3, 4}. Größere Pools ermöglichen konzentriertere Phasen.

Zufällig zuerst, UCB danach

Egal, wie die Würfel fallen, ANDREA füllt die Fokussierungsplätze in zwei Durchgängen:

1. Zufällige Arme zuerst. Wähle einen Bruchteil der Fokussierungsplätze uniform zufällig aus allen verfügbaren Armen. Dies erzwingt kombinatorische Vielfalt in jeder Phase, unabhängig von UCB-Rankings.

2. UCB füllt die verbleibenden Slots. Berechne UCB1-Scores für noch nicht gewählte Arme. Nimm die besten verbleibenden Arme, bis die Anzahl der Fokus-Slots gefüllt ist.

Random-first ist entscheidend. Wenn UCB zuerst gewählt hätte, würde ein Streak-Führer immer einen Slot beanspruchen. Mit Random-first kann sogar der beste UCB-Arm eine Phase aussetzen. Vielfalt bleibt garantiert.

Reine Zufalls-Phasen

Wenn die Würfel 0 zeigen, kommt der gesamte Fokus-Satz aus Zufalls-Auswahlen. UCB trägt nichts bei. Etwa 25 % der Phasen (1d4) oder 33 % der Phasen (1d3) landen hier. Reine Zufalls-Phasen zwingen den Banditen, seine Stichprobe von wenig gezogenen Armen aufzufrischen und die mean_reward-Schätzungen über den gesamten Arm-Pool ehrlich zu halten.

Würfel-Ergebnis-Wahrscheinlichkeiten

Unter 1d3-Würfeln (2-Augen-Konfig) mit möglichen Ergebnissen {0, 1, 2, 3} alle gleich wahrscheinlich, berechne (a) Wahrscheinlichkeit einer vollständig zufälligen Phase (dice=0), (b) Wahrscheinlichkeit von mindestens einem UCB-Arm (dice >= 1), (c) über 100 Phasen die erwartete Anzahl vollständig zufälliger Phasen. Dann unter 1d4 (3-Augen-Konfig) gib (d) die Wahrscheinlichkeit einer vollständig zufälligen Phase. Zeige dein Denken.

Den Schaden begrenzen

Eine schlechte Phase kostet bis zu 42 Schritte

Nehmen wir an, UCB-Rankings wählen einen Fokusarm aus, dessen wahrer Mittelwert viel niedriger ist als sein beobachteter Mittelwert. Die Phase sperrt diesen Arm ein. Die Belohnung bleibt für die gesamte Phase niedrig. Wie lange dauert es, bis der Bandit korrigieren kann?

Maximale Phasenlänge: 42 Schritte. Nach 42 Schritten endet die Phase, Würfel werden neu geworfen, Fokusarme werden neu gemischt. Die schlechte Auswahl kann nicht länger als 42 Vorwärts-Pässe dauern.

Warum 42 (und nicht 100, und nicht 1000)

Lange Phasen lassen mean_reward-Schätzungen stabilisieren. Statistische Theorie: Varianz eines Mittels aus n Stichproben schrumpft als 1/n. Von 7 Stichproben auf 42 Stichproben = 6x mehr Stichproben, sqrt(6) ≈ 2,45x engerer Standardfehler. Nach 42 Stichproben liegt mean_reward ungefähr innerhalb von +/-15 % seines wahren Werts (je nach Varianz der Belohnung).

Nach 42 Stichproben schrumpft der Gewinn: 100 Stichproben vs. 42 Stichproben = 2,4x mehr, sqrt(2,4) ≈ 1,55x engerer Standardfehler. Der marginale Nutzen sinkt, während die Kosten einer schlechten Fixierung steigen. 42 Schritte balancieren beides aus.

Vielfalt vs. Konvergenz

Kurze Phasen (7 Schritte): Belohnungsschätzungen bleiben verrauscht, aber schlechte Auswahlen kosten wenig. Lange Phasen (42 Schritte): Schätzungen präzise, aber schlechte Auswahlen kosten mehr. ANDREA mischt Phasenlängen uniform, sodass beide Regime in jedem Training-Lauf auftreten. [BLOCK CONTENT ceiling/why_42]

[BLOCK CONTENT ceiling/why_42]

Btok-Wiederaufbaukosten

[BLOCK CONTENT ceiling/why_42]

Jede Phasengrenze löst einen Btok-Datei-Wiederaufbau für die Fokusarme aus. Btok-Wiederaufbau läuft in einem Hintergrund-Thread; CUDA hot-reloadet bei mtime-Änderung. Der Wiederaufbau dauert Sekunden; Phasen müssen lang genug laufen, damit der Wiederaufbaukostenanteil gering bleibt. 42 Schritte bei ANDREA-120M-Trainingsgeschwindigkeit übersteigen den Wiederaufbauzeitraum deutlich. [BLOCK TITLE ceiling/ceiling_question]

Über das Ceiling nachdenken [BLOCK QUESTION ceiling/ceiling_question]

ANDREA hat einen 1.000-Schritte-Training-Lauf abgeschlossen. Der Bandit hat bei Schritt 800 einen schlechten Fokusarm gewählt. Ohne das 42-Schritte-Ceiling könnte dieser schlechte Arm beliebig lange bestehen. Mit dem 42-Schritte-Ceiling, wie hoch ist die Worst-Case-Verschwendung an Schritten ab Schritt 800? Erklären Sie dann in zwei Sätzen: (a) warum ein längeres Ceiling (z. B. 200 Schritte) schlechter wäre, & (b) warum ein kürzeres Ceiling (z. B. immer 7 Schritte) auch schlechter wäre. [BLOCK CONTENT ceiling/ceiling_question]

Als Nächstes

Was Du Hast

Phasenbasierte Würfelkontrolle umhüllt UCB1 mit drei Schutzregeln: variable Phasenlänge (7-42), zufällige Arme zuerst, würfeltreibene zufällige Phasen (25-33% rein zufällig). Die 42-Schritt-Decke begrenzt den Schaden; die zufälligen Phasen verhindern Einriegelung; die variablen Längen mischen Reaktionsgeschwindigkeit mit Schätzungsstabilität.

Was Übrig Bleibt

Woher kommt eigentlich das Belohnungssignal, das UCB speist? Activity 78 (Belohnungszuschreibung) zeigt, wie CUDA pro Quelle Verlust jeden Schritt berichtet, wie ein pro-Quelle-EMA die Belohnung trackt, & warum ANDREA rohe Belohnungen um 1000x skaliert, bevor sie UCB1 speist.

Böden & Epochenstrafen (Aktivität 79) legen weitere Schutzregeln auf die Ausgabe des Banditen, um sicherzustellen, dass kleine Quellen nicht ausgehungert werden & große Quellen nicht zur Memorierung wiederholt werden.

Referenz

ANDREA-Whitepaper, Abschnitt 3.2.