un — 言語モデルを成長させる：フェーズベースのダイス制御 [DESCRIPTION /]

un

ゲスト

1 / ?

ロックイン問題

連続して勝つバンディット

Vanilla UCB1は毎ステップでスコアを再計算します。1つの腕を選択。引き。n_k & mean_reward(k)を更新。繰り返し。多くのソースがある長いトレーニング実行で、単一の腕が高リワードの連勝を集め、平均を上げ、他の腕をほぼ打ち負かせなくなります。他の腕は低いn_kで停滞し、古い平均のまま。ロックイン。

ロックインはANDREAに2つの方法で悪影響を及ぼします：

1. 多様性の崩壊。 90%のステップを1つのソースで訓練したモデルは、そのソースの文体的特徴を学習します。生成サンプルは、支配的なソースに一致する反復パターンに漂います。

2. 陳腐化した探索。 陳腐化した平均値を持つ腕は回復できません。平均値が早期に低下した腕は、その平均値に固定されたままです。モデルが今やその腕から報酬を抽出するのに十分な容量を成長させたとしてもです。

フェーズが時間を稼ぐ

解決策: フェーズ（複数のステップ）で固定された焦点腕のセットを保持してから再評価します。14ステップのフェーズとは、14回のフォワードパスが同じ焦点腕に当たることを意味します。平均報酬が安定します。確率的なノイズが平均化されます。それからバンディットが再ロールします。

可変フェーズ長

ANDREAは各フェーズ境界で{7, 14, 21, 28, 42}ステップからランダムにフェーズ長を均等確率で選択します。5つの値、均等ランダム。短いフェーズ（7）は悪い選択に素早く反応します；長いフェーズ（42）は安定したフォーカスセットが完全に活用できるようにします。天井が損害を制限：悪いフォーカス構成に費やされるのは最大42ステップで、強制再ロールされます。

Dice Phase Timeline

フェーズ長の統計

ANDREAは{7, 14, 21, 28, 42}から均等確率でフェーズ長を選択します。(a) 期待（平均）フェーズ長、(b) 最大フェーズ長、(c) 1,000フェーズでの期待総ステップ数を計算せよ。計算過程を示せ。

1d3（2-eye）& 1d4（3-eye）

ダイス表記

テーブルトップ表記：NdM は各M面のダイスをN個振ることを意味します。1d3 は3面ダイス1個を振って{1, 2, 3}の値を返します。1d4 は4面ダイス1個を振って{1, 2, 3, 4}の値を返します。ANDREAは慣習的に結果0も許可します：0のロールは完全にランダムなフェーズ（UCBフォーカスアームなし）を意味します。

2-Eye vs 3-Eye 構成

ANDREAのトレーニング構成は2つのダイスモードのいずれかを選択します：

2-eye config (1d3)。 可能なフォーカスアーム数: {0, 1, 2, 3}。結果0はランダムフェーズ用に予約。

3-eye config (1d4)。 可能なフォーカスアーム数: {0, 1, 2, 3, 4}。より大きなプールはより集中したフェーズを可能にします。

まずランダム、次にUCB

ダイスロールが何であれ、ANDREAは2回の通過でフォーカススロットを埋めます:

1. まずランダムアーム。 利用可能なすべてのアームから均等にランダムにフォーカススロットの割合を選択。これにより、UCBランキングに関係なく、毎フェーズで組み合わせの多様性が強制されます。

2. UCB が残りのスロットを埋める。 すでに選択されたアーム以外のUCB1スコアを計算し、残りの上位ランクのアームを選択してフォーカススロット数を満たすまで。

ランダム優先が重要です。UCBが最初に選ぶ場合、連勝リーダーは常にスロットを獲得します。ランダム優先では、最良のUCBアームでさえフェーズをスキップする可能性があります。多様性が保証されます。

純粋ランダムフェーズ

ダイスが0を振った場合、フォーカスセット全体がランダムピックから来ます。UCBは一切寄与しません。約25%のフェーズ（1d4）または33%のフェーズ（1d3）がここに該当します。純粋ランダムフェーズは、バンディットに低引きアームのサンプルを更新させ、全アームプール全体でmean_reward推定値を正直に保ちます。

ダイス結果の確率

1d3ダイス（2-eye config）で、可能な結果{0, 1, 2, 3}がすべて等確率の場合、(a) 完全ランダムフェーズ（dice=0）の確率、(b) 少なくとも1つのUCBアーム（dice >= 1）の確率、(c) 100フェーズで完全ランダムフェーズの期待個数を計算せよ。次に1d4（3-eye config）で、(d) 完全ランダムフェーズの確率を答えよ。推論を示せ。

ダメージの上限

悪いフェーズは最大42ステップを要する

UCBランクが観測平均より真の平均がはるかに低いフォーカスアームを選ぶと仮定します。フェーズはそのアームを固定します。報酬はフェーズ全体で低く留まります。バンディットが修正するまでどれくらいかかりますか？

最大フェーズ長: 42ステップ。42ステップ後、フェーズが終了し、ダイスが再ロールされ、フォーカスアームが再シャッフルされます。悪いピックは42回のフォワードパスを超えて続くことはできません。

なぜ42なのか（100ではなく、1000でもない）

長いフェーズはmean_rewardの推定値を安定させます。統計理論: nサンプルの平均の分散は1/nに縮小します。7サンプルから42サンプルへ移行すると6倍のサンプル数になり、sqrt(6) ≈ 2.45倍標準誤差が狭まります。42サンプル後、mean_rewardは真の値のほぼ+/-15%以内に収まります（報酬の分散による）。

42サンプルを超えると利益は縮小します: 100サンプル vs 42サンプル = 2.4倍、sqrt(2.4) ≈ 1.55倍標準誤差が狭まる。悪いロックインのコストが増大する中、限界利益は低下します。42ステップは両者のバランスを取ります。

多様性 vs 収束

短いフェーズ（7ステップ）：報酬推定はノイジーなままですが、悪い選択のコストは小さい。長いフェーズ（42ステップ）：推定はタイトですが、悪い選択のコストが大きい。ANDREAはフェーズ長を一様に混ぜるので、両方のレジームが毎回のトレーニングランに現れます。

Btok 再構築コスト

各フェーズ境界はフォーカスアームに対してbtokファイルの再構築をトリガーします。Btok再構築はバックグラウンドスレッドで実行され、mtime変更時にCUDAがホットリロードします。再構築には数秒かかります。フェーズは再構築オーバーヘッドが小さくなるほど十分長く実行する必要があります。ANDREA-120Mのトレーニング速度での42ステップは再構築時間を十分に上回ります。

天井についての推論

ANDREAが1,000ステップのトレーニングランを終了しました。バンディットがステップ800で悪いフォーカスアームを選択しました。42ステップの天井がなければ、その悪いアームは任意の長さ持続する可能性があります。42ステップの天井がある場合、ステップ800からの最悪ケースの無駄ステップ数は何でしょうか？次に2文で説明してください：(a) より長い天井（例：200ステップ）がなぜ悪いか、&(b) より短い天井（例：常に7ステップ）がなぜ悪いか。

次にくるもの

あなたが持っているもの

フェーズベースのダイス制御は、UCB1を3つの保護ルールで包み込みます：可変フェーズ長 (7-42)、最初にランダムアーム、ダイス駆動のランダムフェーズ (25-33% 純粋ランダム)。42ステップの天井がダメージを制限；ランダムフェーズがロックインを防ぐ；可変長が反応速度と推定安定性を混ぜる。

残っているもの

UCBに供給される報酬シグナルは実際どこから来るのか？Activity 78 (reward attribution) は、CUDAが毎ステップごとにソースごとの損失を報告する方法、ソースごとのEMAが報酬を追跡する方法、& ANDREAがUCB1に供給する前に生の報酬を1000倍にスケールする理由を示す。

フロアとエポックペナルティ（アクティビティ 79）は、バンディットの出力の上にさらに保護ルールを重ね、小さなソースが飢餓状態にならないようにし、大きなソースが繰り返し記憶化されないようにします。

参考文献

ANDREA whitepaper、セクション 3.2.