un — Wyhoduj Model Językowy: Kontrola Kości Oparta na Fazach [DESCRIPTION /]

un

gość

1 / ?

powrót do lekcji

Problem Blokady

Bandyt, Który Ciągle Wygrywa

Zwykły UCB1 przelicza wyniki co krok. Wybiera jedną rękę. pociąga ją. Aktualizuje n_k & średnią_nagrodę(k). Powtarza. W długim treningu z wieloma źródłami pojedyncza ręka może zebrać passę wysokich nagród, podnieść swoją średnią & stać się niemal niemożliwą do pokonania. Inne ręce stagnują przy niskim n_k ze starymi średnimi. Blokada.

Blokada szkodzi ANDREA na dwa sposoby:

1. Zapaść różnorodności. Model, który trenuje 90% kroków na jednym źródle, uczy się stylistycznych tików tego źródła. Wygenerowane próbki dryfują w kierunku powtarzalnych wzorców pasujących do dominującego źródła.

2. Zestarzałe eksplorowanie. Ramiona ze zestarzałymi średnimi nie mogą się odzyskać. Ramię, którego średnia spadła wcześnie, pozostaje utknięte na tej średniej, nawet jeśli model teraz rozwinął wystarczającą pojemność, aby wyciągnąć nagrodę z niego.

Faza Kupuje Czas

Rozwiązanie: trzymaj stały zestaw ramion fokusowych przez fazę (wiele kroków), zanim ponownie ocenisz. Faza 14 kroków oznacza, że 14 przejść w przód trafia w te same ramiona fokusowe. Średnie nagrody stabilizują się. Losowy szum się uśrednia. Potem bandyta ponownie rzuca.

Zmienna Długość Fazy

ANDREA losuje długość fazy losowo z {7, 14, 21, 28, 42} kroków na każdej granicy fazy. Pięć wartości, równomiernie losowo. Krótkie fazy (7) szybko reagują na złe wybory; długie fazy (42) pozwalają stabilnym zestawom fokusów w pełni je wykorzystać. Sufit ogranicza szkody: maksymalnie 42 kroki spędzone na złej konfiguracji fokusów przed wymuszonym ponownym rzutem.

Dice Phase Timeline

Statystyki długości fazy

ANDREA losuje długość fazy równomiernie losowo z {7, 14, 21, 28, 42}. Oblicz (a) oczekiwaną (średnią) długość fazy, (b) maksymalną długość fazy, (c) dla 1 000 faz oczekiwaną całkowitą liczbę kroków. Pokaż obliczenia.

1k3 (2-oczna) & 1k4 (3-oczna)

Notacja kości

Notacja stołowa: NkM oznacza rzut N kośćmi z M ścianami każda. 1k3 rzuca jedną kością 3-ścienną, zwracając wartość z {1, 2, 3}. 1k4 rzuca jedną kością 4-ścienną, zwracając {1, 2, 3, 4}. ANDREA pozwala również na wynik 0 na mocy konwencji: rzut 0 oznacza całkowicie losową fazę (brak ram skupionych UCB).

Konfiguracje 2-oczna vs 3-oczna

Konfiguracja treningowa ANDREA wybiera jeden z dwóch trybów kości:

Konfiguracja 2-oczna (1d3). Możliwe liczby ram skupienia: {0, 1, 2, 3}. Wynik 0 zarezerwowany dla losowej fazy.

Konfiguracja 3-oczna (1d4). Możliwe liczby ram skupienia: {0, 1, 2, 3, 4}. Większe pule pozwalają na bardziej skoncentrowane fazy.

Najpierw losowo, potem UCB

Bez względu na wyniki rzutów kośćmi, ANDREA wypełnia sloty skupienia w dwóch przejściach:

1. Najpierw ramki losowe. Wybierz ułamkową część slotów skupienia równomiernie losowo ze wszystkich dostępnych ramek. To wymusza kombinatoryczną różnorodność w każdej fazie, niezależnie od rankingów UCB.

2. UCB wypełnia pozostałe sloty. Oblicz wyniki UCB1 dla ramion nie wybrane wcześniej. Wybierz najwyżej oceniane pozostałe ramiona, aż zapełni się liczba slotów fokusowych.

Losowanie pierwsze ma znaczenie. Jeśli UCB wybrałoby pierwsze, lider passy zawsze zająłby slot. Z losowaniem pierwszym, nawet najlepsze ramię UCB może opuścić fazę. Różnorodność pozostaje gwarantowana.

Czysto Losowe Fazy

Gdy kostka wyrzuci 0, cały zestaw fokusowy pochodzi z losowych wyborów. UCB nie wnosi nic. Około 25% faz (1k4) lub 33% faz (1k3) ląduje tutaj. Czysto losowe fazy zmuszają bandyta do odświeżenia próbki słabo ciągniętych ramion, utrzymując uczciwe szacunki średniej nagrody dla całego puli ramion.

Prawdopodobieństwa Wyników Kostki

Przy kostce 1k3 (konfiguracja 2-oczna) z możliwymi wynikami {0, 1, 2, 3} równoważnie prawdopodobnymi, oblicz (a) prawdopodobieństwo w pełni losowej fazy (kostka=0), (b) prawdopodobieństwo co najmniej jednego ramienia UCB (kostka >= 1), (c) w ciągu 100 faz, oczekiwaną liczbę w pełni losowych faz. Następnie przy 1k4 (konfiguracja 3-oczna), podaj (d) prawdopodobieństwo w pełni losowej fazy. Pokaż rozumowanie.

Ograniczanie obrażeń

Zła faza kosztuje do 42 kroków

Załóżmy, że rankingi UCB wybiorą ramię fokusowe, którego prawdziwa średnia jest znacznie niższa niż obserwowana średnia. Faza blokuje to ramię. Nagroda pozostaje niska przez całą fazę. Jak długo aż bandyta może to skorygować?

Maksymalna długość fazy: 42 kroki. Po 42 krokach faza kończy się, kostki są rzucane ponownie, ramiona fokusowe są tasowane na nowo. Zły wybór nie może trwać dłużej niż 42 przejścia w przód.

Dlaczego 42 (i nie 100, i nie 1000)

Długie fazy pozwalają na ustabilizowanie się szacunków mean_reward. Teoria statystyczna: wariancja średniej z n próbek maleje jak 1/n. Przejście z 7 próbek do 42 próbek daje 6x więcej próbek, sqrt(6) approx 2.45x mniejszy błąd standardowy. Po 42 próbkach mean_reward mieści się w przybliżeniu w granicach +/-15% swojej prawdziwej wartości (w zależności od wariancji nagrody).

Po 42 próbkach zysk maleje: 100 próbek vs 42 próbki = 2.4x więcej, sqrt(2.4) approx 1.55x mniejszy błąd standardowy. Marżalny zysk spada, podczas gdy koszt złego zamknięcia rośnie. 42 kroki równoważą oba aspekty.

Różnorodność vs Konwergencja

Krótkie fazy (7 kroków): szacunki nagród pozostają hałaśliwe, ale złe wybory kosztują mało. Długie fazy (42 kroki): szacunki precyzyjne, ale złe wybory kosztują więcej. ANDREA miesza długości faz równomiernie, więc oba reżimy pojawiają się w każdym treningu.

Koszt odbudowy Btok

Każda granica fazy uruchamia odbudowę pliku btok dla ram fokusowych. Odbudowa btok działa w wątku tła; CUDA hot-reloaduje przy zmianie mtime. Odbudowa trwa sekundy; fazy muszą trwać wystarczająco długo, aby narzut odbudowy pozostał mały. 42 kroki przy prędkości treningu ANDREA-120M komfortowo przekraczają czas odbudowy.

Rozumowanie o limicie

ANDREA zakończyła trening 1,000-krokowy. Bandyt wybrał złą ramę fokusową w kroku 800. Bez limitu 42-kroków, ta zła rama mogłaby trwać dowolnie długo. Z limitem 42-kroków, jaki jest najgorszy przypadek liczby zmarnowanych kroków od kroku 800? Następnie wyjaśnij w dwóch zdaniach: (a) dlaczego dłuższy limit (np. 200 kroków) byłby gorszy, & (b) dlaczego krótszy limit (np. zawsze 7 kroków) też byłby gorszy.

Co Następne

Co Masz

Kontrola kości oparta na fazach owija UCB1 w trzy ochronne reguły: zmienna długość fazy (7-42), losowe ramiona na początku, losowe fazy napędzane kośćmi (25-33% czysto losowe). Limit 42 kroków ogranicza szkody; losowe fazy zapobiegają utknięciu; zmienne długości mieszają szybkość reakcji ze stabilnością szacunków.

Co Pozostało

Skąd bierze się sygnał nagrody, który zasila UCB? Aktywność 78 (przypisywanie nagród) pokazuje, jak CUDA raportuje stratę na źródło co krok, jak EMA na źródło śledzi nagrodę, & dlaczego ANDREA skaluje surowe nagrody x1000 przed podaniem do UCB1.

Podłogi i kary epokowe (aktywność 79) dodają dalsze zasady ochronne na szczycie wyjścia bandyty, zapewniając, że małe źródła nie są głodzone & duże źródła nie są powtarzane do zapamiętania.

Referencja

Whitepaper ANDREA, sekcja 3.2.