English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

гость
1 / ?
назад к урокам

Что означает на самом деле подбор модели

Модель симуляции делает математический утверждение: выходы реальной системы лежат на (или около) определенной поверхности M в пространстве наблюдений.

Пусть реальная система производит наблюдения y₁, y₂, ..., yₙ. Модель предсказывает значения ŷ₁, ŷ₂, ..., ŷₙ.

Остатки как расстояния: rᵢ = yᵢ - ŷᵢ. Каждый остаток измеряет расстояние между наблюдением и соответствующим предсказанием модели. В n-мерном пространстве наблюдений остатки образуют вектор r = y - ŷ.

Минимизация по квадратам: выберите параметры модели, чтобы минимизировать ||r||² = Σrᵢ². Геометрически, найдите точку ŷ на поверхности модели M, ближайшую к вектору наблюдений y в евклидовом расстоянии.

Когда остатки вводят в заблуждение

Малый ||r||² не гарантирует валидную модель. Два систематических режима отказа:

1. Систематическая погрешность: остатки rᵢ маленькие, но все положительные (или все отрицательные). Модель систематически недо- или пере-предсказывает. Геометрически: ŷ лежит на параллельной смещенной поверхности к истинной поверхности данных — близко по расстоянию, но неправильно по структуре.

2. Неправильная поверхность: остатки маленькие, потому что модель имеет достаточно свободных параметров, чтобы точно подстроиться под данные обучения (переобучение). Поверхность модели проходит через точки данных, но между ними извивается. Предсказания на новых данных плохие.

Остатки, Систематическая Погрешность и Подбор Поверхности

Определение систематической погрешности

Модель с нулевой средней погрешности может все же иметь систематическую погрешность, которая изменяется с изменением переменной входа.

Пример: симуляция погоды, которая недооценивает температуру на 2°C летом и переоценивает зимой на 2°C, имеет среднюю погрешность ≈ 0 на протяжении всего года, но четкое сезонное смещение.

Диаграмма погрешности: нарисуйте rᵢ против каждой входной переменной. Уровненная паттерная (без тренда) говорит о отсутствии систематической погрешности из-за этой переменной. Трендовый паттерн раскрывает отсутствующий измеритель в модели.

Верификационное вопрос Хэмминга — 'Может быть пропущена малая, но важная эффект?' — геометрически переводится: имеет ли вектор остатка компоненту в направлении, не охватываемом параметрическим пространством модели?

Регрессионная модель y = ax + b подбирается к 4 точкам данных: (1, 3), (2, 5), (3, 8), (4, 9). Подобранная прямая имеет a = 2, b = 1, давая предсказания ŷ = (3, 5, 7, 9). Вычислите остатки. Затем: являются ли остатки систематическими (проявляется ли в них определенная закономерность), или они кажутся случайными? Какую геометрическую характеристику модели вы бы изменили на основе паттерна остатков?

Систематический сдвиг против случайного шума

Эффект Хэвворна: участники исследования меняют свое поведение из-за того, что знают, что их наблюдают, а не из-за экспериментального лечения.

Геометрическое интерпретирование

Пусть истинное данные-манифест M находится в пространстве, охватываемом переменными (x₁, x₂, ..., xₖ, observation_context).

Модель игнорирует observation_context. Она строит поверхность для наблюдений в (x₁, ..., xₖ) alone.

Когда observation_context = 'being studied,' фактические точки данных смещаются по оси observation_context. Поверхность модели — фиксированная в пространстве (x₁, ..., xₖ) — теперь подходит к смещенным данным. Остатки кажутся небольшими (поверхность все еще хорошо подходит внутри контекста исследования), но предсказания в неосмотренном контексте систематически неверны.

Геометрия: поверхность модели близка к манифесту данных в контексте исследования, но далека от манифеста реальности. Расстояние между ними: систематический сдвиг Хэвворна по оси observation_context.

Требование Хэмминга об ультрасекретности: предотвратить корреляцию observation_context с лечением. Это сохраняет манифест реальности и манифест контекста исследования совпадающими — устраняет геометрический сдвиг.

Другие эффекты скрытых измерений

Любая переменная, влияющая на систему, но исключенная из модели, создает ту же геометрическую структуру:

- Сезонные эффекты, опущенные из экономических моделей

- Поведение оператора, исключенное из симуляций производства

- Состояние версии программного обеспечения, отсутствующее в моделях производительности

Модель адаптируется к поверхности меньшей размерности, которая проецируется на данные, живущие на многообразии высшей размерности. Остатки будут малы в направлениях, измеренных моделью, но большие в не измеренных направлениях.

Валидация как геометрическое соответствие

Проверочный список Хамминга, перефразированный как геометрия:

Поддерживает ли теория фона допустимые законы? Размерности параметров модели охватывают истинное многообразие данных? Если ключевые переменные отсутствуют (исключаются размерности), поверхность модели не может быть выровнена с реальностью.

Доступны внутренние проверки? Законы сохранения являются геометрическими ограничениями: данные должны находиться на конкретном подмногообразии, определенным законом сохранения массы, энергии и т.д. Если симуляция нарушаает эти законы, ее траектория покинула допустимое подмногообразие.

Проверки, согласующиеся с известным прошлым опытом: поверхность модели должна проходить через исторические точки валидации - не только адаптироваться к обучающим данным, но и обобщаться на данные, выходящие за рамки выборки.

Стабильна ли симуляция? Стабильная симуляция остается близко к истинному многообразию решений при малых возмущениях. Нестабильная симуляция покидает окрестность многообразия и не может быть названа действительной моделью.

Хамминг отметил, что в бизнес-симуляциях и военных играх участники, знающие, что находятся в симуляции, меняют свое поведение - делая симуляцию нерелевантной модели реального поведения. Определите геометрическую характеристику, которая делает симуляцию неудачной в этом случае (не только 'эффект Хауторна' - опишите геометрическую структуру). Затем предложите валидационный тест, который бы выявил разрыв между симуляцией и реальностью без необходимости использования условий двойной слепой методики.

Когда прогноз становится проекцией

Хамминг одобрил метод сценариев для областей, где прогнозирование невозможно: вместо того чтобы заявлять "система сделает X", представьте несколько возможных траекторий при разных предположениях.

Геометрическое интерпретация

Поверхность модели M(θ) зависит от параметров θ (предположений о законах, постоянных, границах условий). Разные наборы предположений θ₁, θ₂, ..., θₖ определяют разные поверхности M(θ₁), ..., M(θₖ).

Сценарная оболочка - это объединение этих поверхностей: регион выходного пространства, который может произвести любая из моделей сценариев.

Один прогноз утверждает: истинный результат находится рядом с M(θ) для лучшего оценки θ. Метод сценариев утверждает: истинный результат находится где-то внутри оболочки.

Когда оболочка полезна

Если оболочка узкая - все сценарии согласны с выходом, несмотря на разные предположения - уверенность в прогнозе высока. Если оболочка широкая - разные предположения приводят к очень разным выходам - модель чрезвычайно чувствительна к предположениям. Эта чувствительность является выходом, а не режимом ошибки.

Заявление Хамминга о своих собственных прогнозах: он давал сценарии, а не точные прогнозы. Будущее, которое он описывал, было "то, что вероятно произойдет, по моему мнению", а не точный прогноз.

Пересечение с реальностью

Модель сценариев считается валидной, когда реальность падает внутри оболочки. Это более слабый тест, чем точный прогноз, но более честно отражает, что модель может заявить.

Сборка: валидные модели и их геометрия

Геометрия валидной симуляции сводится к трем выравниванию:

1. Параметрическое пространство охватывает истинную манифолд: размерности модели включают все переменные, которые управляют системой. Неполные размерности приводят к систематическим смещениям.

2. Устойчивость сохраняет траекторию возле истинной манифолда: сходимость направленного поля означает, что ошибки уменьшаются. Распространение поля означает, что симуляция покидает валидную область.

3. Оставшиеся невыясненными являются малыми и без структуры: случайные, некоррелированные остатки говорят о том, что модель захватывает истинную манифолд. Структурированные остатки (тре́нды, паттерны) сигнализируют о пропущенной размерности.

Гамминга 'Почему кто-либо должен верить симуляции?' геометрически: насколько близка модель поверхности к манифолду реальности, в каких размерностях, с какой устойчивостью, проверено на скольких независимых данных?

Вы строите модель для предсказания того, завершится ли строительство мостового объекта в срок. Ваши данные содержат: планируемое время выполнения (недели), количество команды (человек) и соотношение бюджета (действительное/планируемое). Ваш коллега утверждает, что вы упускаете из виду критические переменные. Используя геометрическую рамку из данного урока, опишите два типа упущенных переменных: одну, которая создаст систематический смещение предсказаний, и одну, которая увеличит дисперсию предсказаний без смещения. Объясните геометрическую разницу между этими двумя эффектами.