Das Lock-In-Problem
Ein Bandit, der immer gewinnt
Vanilla UCB1 berechnet die Scores jeden Schritt neu. Wählt einen Arm. Zieht ihn. Aktualisiert n_k & mean_reward(k). Wiederholt. In einem langen Training mit vielen Quellen kann ein einzelner Arm eine Serie hoher Belohnungen sammeln, seinen Mittelwert in die Höhe treiben & nahezu unbesiegbar werden. Andere Arme stagnieren bei niedrigem n_k mit veralteten Mittelwerten. Lock-in.
Lock-in schadet ANDREA auf zwei Weisen:
1. Vielfaltszusammenbruch. Ein Modell, das 90 % der Schritte auf eine Quelle trainiert, lernt die stilistischen Eigenheiten dieser Quelle. Generierte Samples drifteten zu repetitiven Mustern, die der dominanten Quelle entsprechen.
2. Veraltete Erkundung. Arme mit veralteten Mittelwerten können nicht wiederhergestellt werden. Ein Arm, dessen Mittelwert früh gesunken ist, bleibt bei diesem Mittelwert stecken, auch wenn das Modell nun genug Kapazität hat, Belohnung daraus zu extrahieren.
Eine Phase kauft Zeit
Lösung: Halte für eine Phase (mehrere Schritte) einen festen Satz von Fokusarmen, bevor neu evaluiert wird. Eine Phase von 14 Schritten bedeutet, dass 14 Forward-Pässe die gleichen Fokusarme treffen. Mittelwerte der Belohnungen stabilisieren sich. Stochastisches Rauschen wird gemittelt. Dann rollt der Bandit neu.
Variable Phasenlänge
ANDREA wählt die Phasenlänge zufällig uniform aus {7, 14, 21, 28, 42} Schritten an jeder Phasengrenze. Fünf Werte, uniform zufällig. Kurze Phasen (7) reagieren schnell auf schlechte Auswahlen; lange Phasen (42) lassen stabile Fokusmengen voll ausnutzen. Die Obergrenze begrenzt den Schaden: höchstens 42 Schritte für eine schlechte Fokuskonfiguration, bevor erzwungener Neuwurf.
Phasenlängen-Statistiken
1d3 (2-Auge) & 1d4 (3-Auge)
Würfel-Notation
Tabletop-Notation: NdM bedeutet, N Würfel mit je M Seiten zu würfeln. 1d3 würfelt einen 3-seitigen Würfel und ergibt einen Wert in {1, 2, 3}. 1d4 würfelt einen 4-seitigen Würfel und ergibt {1, 2, 3, 4}. ANDREA erlaubt konventionell auch das Ergebnis 0: Ein Wurf von 0 bedeutet vollständig zufällige Phase (kein UCB-Fokus-Arme).
2-Auge vs. 3-Auge-Konfigurationen
ANDREA's Trainingskonfiguration wählt einen von zwei Würfelmodi:
2-Augen-Konfig (1d3). Mögliche Fokussierungsarm-Anzahlen: {0, 1, 2, 3}. Ergebnis 0 für zufällige Phase reserviert.
3-Augen-Konfig (1d4). Mögliche Fokussierungsarm-Anzahlen: {0, 1, 2, 3, 4}. Größere Pools ermöglichen konzentriertere Phasen.
Zufällig zuerst, UCB danach
Egal, wie die Würfel fallen, ANDREA füllt die Fokussierungsplätze in zwei Durchgängen:
1. Zufällige Arme zuerst. Wähle einen Bruchteil der Fokussierungsplätze uniform zufällig aus allen verfügbaren Armen. Dies erzwingt kombinatorische Vielfalt in jeder Phase, unabhängig von UCB-Rankings.
2. UCB füllt die verbleibenden Slots. Berechne UCB1-Scores für noch nicht gewählte Arme. Nimm die besten verbleibenden Arme, bis die Anzahl der Fokus-Slots gefüllt ist.
Random-first ist entscheidend. Wenn UCB zuerst gewählt hätte, würde ein Streak-Führer immer einen Slot beanspruchen. Mit Random-first kann sogar der beste UCB-Arm eine Phase aussetzen. Vielfalt bleibt garantiert.
Reine Zufalls-Phasen
Wenn die Würfel 0 zeigen, kommt der gesamte Fokus-Satz aus Zufalls-Auswahlen. UCB trägt nichts bei. Etwa 25 % der Phasen (1d4) oder 33 % der Phasen (1d3) landen hier. Reine Zufalls-Phasen zwingen den Banditen, seine Stichprobe von wenig gezogenen Armen aufzufrischen und die mean_reward-Schätzungen über den gesamten Arm-Pool ehrlich zu halten.
Würfel-Ergebnis-Wahrscheinlichkeiten
Den Schaden begrenzen
Eine schlechte Phase kostet bis zu 42 Schritte
Nehmen wir an, UCB-Rankings wählen einen Fokusarm aus, dessen wahrer Mittelwert viel niedriger ist als sein beobachteter Mittelwert. Die Phase sperrt diesen Arm ein. Die Belohnung bleibt für die gesamte Phase niedrig. Wie lange dauert es, bis der Bandit korrigieren kann?
Maximale Phasenlänge: 42 Schritte. Nach 42 Schritten endet die Phase, Würfel werden neu geworfen, Fokusarme werden neu gemischt. Die schlechte Auswahl kann nicht länger als 42 Vorwärts-Pässe dauern.
Warum 42 (und nicht 100, und nicht 1000)
Lange Phasen lassen mean_reward-Schätzungen stabilisieren. Statistische Theorie: Varianz eines Mittels aus n Stichproben schrumpft als 1/n. Von 7 Stichproben auf 42 Stichproben = 6x mehr Stichproben, sqrt(6) ≈ 2,45x engerer Standardfehler. Nach 42 Stichproben liegt mean_reward ungefähr innerhalb von +/-15 % seines wahren Werts (je nach Varianz der Belohnung).
Nach 42 Stichproben schrumpft der Gewinn: 100 Stichproben vs. 42 Stichproben = 2,4x mehr, sqrt(2,4) ≈ 1,55x engerer Standardfehler. Der marginale Nutzen sinkt, während die Kosten einer schlechten Fixierung steigen. 42 Schritte balancieren beides aus.
Vielfalt vs. Konvergenz
Kurze Phasen (7 Schritte): Belohnungsschätzungen bleiben verrauscht, aber schlechte Auswahlen kosten wenig. Lange Phasen (42 Schritte): Schätzungen präzise, aber schlechte Auswahlen kosten mehr. ANDREA mischt Phasenlängen uniform, sodass beide Regime in jedem Training-Lauf auftreten. [BLOCK CONTENT ceiling/why_42]
[BLOCK CONTENT ceiling/why_42]
Btok-Wiederaufbaukosten
[BLOCK CONTENT ceiling/why_42]Jede Phasengrenze löst einen Btok-Datei-Wiederaufbau für die Fokusarme aus. Btok-Wiederaufbau läuft in einem Hintergrund-Thread; CUDA hot-reloadet bei mtime-Änderung. Der Wiederaufbau dauert Sekunden; Phasen müssen lang genug laufen, damit der Wiederaufbaukostenanteil gering bleibt. 42 Schritte bei ANDREA-120M-Trainingsgeschwindigkeit übersteigen den Wiederaufbauzeitraum deutlich. [BLOCK TITLE ceiling/ceiling_question]
Über das Ceiling nachdenken [BLOCK QUESTION ceiling/ceiling_question]
Als Nächstes
Was Du Hast
Phasenbasierte Würfelkontrolle umhüllt UCB1 mit drei Schutzregeln: variable Phasenlänge (7-42), zufällige Arme zuerst, würfeltreibene zufällige Phasen (25-33% rein zufällig). Die 42-Schritt-Decke begrenzt den Schaden; die zufälligen Phasen verhindern Einriegelung; die variablen Längen mischen Reaktionsgeschwindigkeit mit Schätzungsstabilität.
Was Übrig Bleibt
Woher kommt eigentlich das Belohnungssignal, das UCB speist? Activity 78 (Belohnungszuschreibung) zeigt, wie CUDA pro Quelle Verlust jeden Schritt berichtet, wie ein pro-Quelle-EMA die Belohnung trackt, & warum ANDREA rohe Belohnungen um 1000x skaliert, bevor sie UCB1 speist.
Böden & Epochenstrafen (Aktivität 79) legen weitere Schutzregeln auf die Ausgabe des Banditen, um sicherzustellen, dass kleine Quellen nicht ausgehungert werden & große Quellen nicht zur Memorierung wiederholt werden.
Referenz
ANDREA-Whitepaper, Abschnitt 3.2.