un — Развивайте языковую модель: Контроль кубиков на основе фаз [DESCRIPTION /]

un

гость

1 / ?

Проблема залипания

Бандит, который продолжает выигрывать

Обычный UCB1 пересчитывает оценки на каждом шаге. Выбирает один рычаг. Тянет его. Обновляет n_k & mean_reward(k). Повторяет. В долгом обучении с многими источниками один рычаг может собрать серию высоких наград, поднять свою среднюю & стать почти непобедимым. Другие рычаги застаиваются с низким n_k и устаревшими средними. Залипание.

Залипание вредит ANDREA двумя способами:

1. Коллапс разнообразия. Модель, которая обучается 90% шагов на одном источнике, изучает стилистические особенности этого источника. Генерируемые образцы смещаются к повторяющимся паттернам, соответствующим доминирующему источнику.

2. Устаревшее исследование. Руки с устаревшими средними значениями не могут восстановиться. Рука, чьё среднее значение упало рано, остаётся застрявшей на этом значении, даже если модель теперь набрала достаточно ёмкости, чтобы извлечь вознаграждение из неё.

Фаза даёт время

Решение: удерживать фиксированный набор фокусных рук на протяжении фазы (несколько шагов), прежде чем переоценивать. Фаза из 14 шагов означает, что 14 прямых проходов попадают в те же фокусные руки. Средние вознаграждения стабилизируются. Стохастический шум усредняется. Затем бандит перебрасывает.

Переменная длина фазы

ANDREA случайным образом выбирает длину фазы из {7, 14, 21, 28, 42} шагов на каждой границе фазы. Пять значений, равномерная случайность. Короткие фазы (7) быстро реагируют на плохие выборы; длинные фазы (42) позволяют стабильным наборам фокуса полностью использовать возможности. Потолок ограничивает ущерб: максимум 42 шага на плохую конфигурацию фокуса перед принудительным перевыпуском.

Dice Phase Timeline

Статистика длины фазы

ANDREA выбирает длину фазы равномерно случайно из {7, 14, 21, 28, 42}. Вычислите (a) ожидаемую (среднюю) длину фазы, (b) максимальную длину фазы, (c) за 1 000 фаз общие ожидаемые шаги. Покажите вычисления.

1d3 (2-глазый) & 1d4 (3-глазый)

Нотация кубиков

Нотация настольных игр: NdM означает бросить N кубиков с M гранями каждый. 1d3 бросает один 3-гранный кубик, возвращая значение из {1, 2, 3}. 1d4 бросает один 4-гранный кубик, возвращая {1, 2, 3, 4}. ANDREA также допускает результат 0 по конвенции: бросок 0 означает полностью случайную фазу (без фокуса на руках UCB).

Конфигурации 2-глазый против 3-глазый

Тренировочная конфигурация ANDREA выбирает один из двух режимов кубиков:

Конфигурация 2-глазое (1d3). Возможные количества ручек фокуса: {0, 1, 2, 3}. Результат 0 зарезервирован для случайной фазы.

Конфигурация 3-глазое (1d4). Возможные количества ручек фокуса: {0, 1, 2, 3, 4}. Большие пулы позволяют более концентрированные фазы.

Сначала случайный, потом UCB

Независимо от результатов бросков кубиков, ANDREA заполняет слоты фокуса в два прохода:

1. Сначала случайные ручки. Выбирается случайная доля слотов фокуса равномерно из всех доступных ручек. Это обеспечивает комбинаторное разнообразие на каждой фазе, независимо от рейтингов UCB. [BLOCK_TYPE SECTION/STEP] __BLOCK_N__ <translated content>

2. UCB заполняет оставшиеся слоты. Вычислите оценки UCB1 для рук, которые ещё не выбраны. Возьмите лучшие оставшиеся руки, пока не заполнится количество слотов фокуса.

Случайный выбор первым имеет значение. Если бы UCB выбирал первым, лидер по серии всегда бы занимал слот. С random-first даже лучшая рука UCB может пропустить фазу. Разнообразие остаётся гарантированным.

Чисто случайные фазы

Когда кубик выпадает 0, весь набор фокуса формируется из случайных выборов. UCB ничего не вносит. Около 25% фаз (1d4) или 33% фаз (1d3) попадают сюда. Чисто случайные фазы заставляют бандита обновлять свою выборку слабо тянутых рук, сохраняя честные оценки mean_reward по всему пулу рук.

Вероятности исходов кубика

При кубике 1d3 (конфигурация 2-глазная) с возможными исходами {0, 1, 2, 3}, все равновероятные, вычислите (a) вероятность полностью случайной фазы (dice=0), (b) вероятность хотя бы одной руки UCB (dice >= 1), (c) за 100 фаз ожидаемое количество полностью случайных фаз. Затем для 1d4 (конфигурация 3-глазная) дайте (d) вероятность полностью случайной фазы. Покажите рассуждения.

Ограничение ущерба

Плохая фаза стоит до 42 шагов

Предположим, ранжирование UCB выбирает фокусную руку, истинное среднее которой гораздо ниже наблюдаемого среднего. Фаза фиксирует эту руку. Награда остается низкой на всю фазу. Сколько времени нужно бандиту, чтобы исправить?

Максимальная длина фазы: 42 шага. После 42 шагов фаза заканчивается, кубики перебрасываются, фокусные руки перемешиваются. Плохой выбор не может длиться дольше 42 прямых проходов.

Почему 42 (а не 100, а не 1000)

Длинные фазы позволяют оценкам mean_reward стабилизироваться. Статистическая теория: дисперсия среднего из n выборок уменьшается как 1/n. Переход от 7 выборок к 42 выборкам даёт 6x больше выборок, sqrt(6) ≈ 2.45x меньшая стандартная ошибка. После 42 выборок mean_reward находится примерно в пределах +/-15% от своего истинного значения (в зависимости от дисперсии вознаграждения).

После 42 выборок выгода уменьшается: 100 выборок против 42 = 2.4x больше, sqrt(2.4) ≈ 1.55x меньшая стандартная ошибка. Предельная выгода падает, а стоимость плохой фиксации растёт. 42 шага балансируют эти два фактора.

Разнообразие против сходимости

Короткие фазы (7 шагов): оценки вознаграждений остаются шумными, но плохие выборы стоят мало. Длинные фазы (42 шага): оценки точные, но плохие выборы стоят дороже. ANDREA смешивает длины фаз равномерно, чтобы оба режима появлялись в каждом запуске обучения.

Стоимость перестройки Btok

Каждая граница фазы запускает перестройку файла btok для фокусных рук. Перестройка btok выполняется в фоновом потоке; CUDA горячая перезагрузка при изменении mtime. Перестройка занимает секунды; фазы должны выполняться достаточно долго, чтобы накладные расходы на перестройку оставались малыми. 42 шага при скорости обучения ANDREA-120M комфортно превышают время перестройки.

Размышления о потолке

ANDREA завершила запуск обучения на 1000 шагов. Бандит выбрал плохую фокусную руку на шаге 800. Без потолка в 42 шага эта плохая рука могла бы сохраняться произвольно долго. С потолком в 42 шага, сколько шагов потрачено впустую в худшем случае с шага 800? Затем объясните в два предложения: (a) почему более длинный потолок (например, 200 шагов) был бы хуже, и (b) почему более короткий потолок (например, всегда 7 шагов) тоже был бы хуже.

Что у вас есть

Контроль кубиков на основе фаз оборачивает UCB1 в три защитных правила: переменная длина фазы (7-42), случайные руки первыми, фазы случайные на основе кубиков (25-33% чисто случайные). Потолок в 42 шага ограничивает ущерб; случайные фазы предотвращают фиксацию; переменные длины сочетают скорость реакции с устойчивостью оценки.

Что осталось

Откуда берется сигнал вознаграждения, который питает UCB? Активность 78 (приписывание вознаграждения) показывает, как CUDA сообщает потери по источникам на каждом шаге, как EMA по источникам отслеживает вознаграждение, и почему ANDREA масштабирует сырые вознаграждения в 1000 раз перед подачей в UCB1.

Полы и штрафы эпох (активность 79) добавляют дополнительные защитные правила поверх вывода бандита, обеспечивая, чтобы мелкие источники не голодали, а крупные источники не повторялись для запоминания.

Справочник

ANDREA whitepaper, раздел 3.2.

un