un — Геометрия машинного рассуждения: III

un

гость

1 / ?

Границы решений как гиперплоскости

Бинарный классификатор назначает каждый вход одному из двух классов. Граница решения классификатора делит пространство входов на два региона: один на класс. Геометрия этой границы определяет, какие паттерны может изучить классификатор.

Гиперплоскость в ℝ^n: множество всех точек x, удовлетворяющих w·x + b = 0, где w — вектор весов в ℝ^n и b — скалярное смещение. Гиперплоскость имеет n−1 измерений.

В 2D: гиперплоскость — прямая линия. В 3D: плоская плоскость. В n-D: плоское (n−1)-мерное подпространство.

Персептрон классифицирует, вычисляя w·x + b и возвращая класс 1, если положительно, класс 0, если отрицательно. Его граница решения — гиперплоскость.

Линейная разделимость

Набор данных линейно разделим в ℝ^n, если существует гиперплоскость, которая помещает все точки класса-0 с одной стороны и все точки класса-1 с другой. Это чистое геометрическое свойство набора данных.

Геометрия границ решений: линейная разделимость и XOR

Проверка линейной разделимости

Набор данных вентиля AND в 2D: точки класса-0 в (0,0), (1,0), (0,1); точка класса-1 в (1,1). Этот набор данных линейно разделим.

Набор данных XOR в 2D: точки класса-0 в (0,0) и (1,1); точки класса-1 в (1,0) и (0,1). Эти два класса лежат на противоположных диагоналях.

Проверьте, что набор данных XOR НЕ линейно разделим в 2D. Используйте геометрический аргумент: объясните, почему ни одна линия в 2D плоскости не может разделить два класса. Ваш аргумент должен ссылаться на позиции четырех точек и на свойство прямой линии, которое делает разделение невозможным.

Поднятие в более высокие измерения

XOR не линейно разделим в 2D. Решение: отобразить данные в пространство более высокой размерности, где оно становится линейно разделимым. Это основная идея трюка с ядром.

Отображение признаков: функция φ: ℝ^n → ℝ^m (m > n), которая преобразует каждую входную точку в представление более высокой размерности.

Для XOR, одно полезное отображение признаков: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

Это добавляет третье измерение z = x₁ × x₂. Точки XOR преобразуются в:

- (0,0) → (0, 0, 0), класс 0

- (1,0) → (1, 0, 0), класс 1

- (0,1) → (0, 1, 0), класс 1

- (1,1) → (1, 1, 1), класс 0

В 3D: точки класса-0 находятся в (0,0,0) и (1,1,1); точки класса-1 находятся в (1,0,0) и (0,1,0). Теперь найдите разделяющую плоскость.

Разделяющая плоскость в 3D

После отображения признаков φ(x₁, x₂) = (x₁, x₂, x₁x₂), данные XOR живут в 3D. Гиперплоскость в 3D имеет уравнение w₁x₁ + w₂x₂ + w₃z + b = 0.

Найдите гиперплоскость w·x + b = 0 в преобразованном 3D пространстве, которая корректно разделяет классы XOR. Проверьте вашу гиперплоскость, подставив все четыре преобразованные точки. Каждая точка класса-0 должна дать w·x + b < 0 (или > 0) и каждая точка класса-1 должна дать противоположный знак.

Теорема Кавера: почему высокие измерения помогают

Теорема Кавера (1965): сложная задача классификации, размещенная в пространстве высокой размерности, с большей вероятностью будет линейно разделима, чем в пространстве низкой размерности, при условии, что пространство не плотно населено.

Неформальное утверждение: если вы отобразите n точек данных в пространство размерности d >> n, вероятность того, что случайная разметка будет линейно разделимой, приближается к 1.

Формальная версия: для n точек в общем положении в ℝ^d, количество линейно разделимых дихотомий (присвоений классов) ровно 2 × Σ_{k=0}^{d} C(n−1, k) для d < n, и равно 2^n (все дихотомии) для d ≥ n − 1.

Практическое следствие: отображение признаков φ, которое поднимает XOR в 3D, является частным случаем этого общего принципа. Поднятие в более высокие измерения увеличивает вероятность разделимости. Стоимость: больше параметров для подгонки, более высокий риск переобучения.

Компромисс смещения-дисперсии как геометрия

Граница решения низкой размерности (мало параметров): высокое смещение (не может захватить сложные паттерны), низкая дисперсия (стабильна между выборками). Граница высокой размерности (много параметров): низкое смещение, высокая дисперсия (может переобучиться на шум в обучающих данных).

Размерность VC: насколько выразителен классификатор?

Размерность Vapnik-Chervonenkis (VC) класса гипотез H измеряет, насколько сложен этот класс: наибольшее количество точек, которые H может разбить (корректно классифицировать во всех 2^n возможных разметках).

Персептрон в ℝ^d: размерность VC = d + 1. D-мерная гиперплоскость может разбить d + 1 точку (в общем положении), но не d + 2.

Размерность VC определяет сложность выборки: чтобы изучить гипотезу с ошибкой обобщения ε с вероятностью 1 − δ, вам нужно примерно n ≥ (d × log(1/ε) + log(1/δ)) / ε выборок, где d — размерность VC.

Персептрон в ℝ^3 имеет размерность VC 4. В соответствии с границей сложности выборки VC, примерно сколько обучающих выборок необходимо для достижения ошибки обобщения ε = 0,05 с уверенностью 1 − δ = 0,95? Используйте упрощенную границу n ≥ (d × log(1/ε) + log(1/δ)) / ε с заданными значениями. Покажите все вычисления.

Границы решений и пределы возможностей машинного рассуждения

Геометрия границ решений напрямую связана с пределами машинного рассуждения Хэмминга.

Однослойный персептрон (гиперплоскостной классификатор) не может решить XOR. Это была критика Минского и Папперта на ранних персептронах в 1969 году. Геометрический аргумент: XOR не линейно разделим. Машина не может его решить, не потому, что ей не хватает вычислительной мощности, а потому, что существует фундаментальная геометрическая несовместимость между классом гипотез и задачей.

Решение: многослойные сети могут представлять нелинейные границы. Скрытые слои реализуют отображение признаков φ — поднятие данных в более высокие измерения, где линейное разделение становится возможным. Каждый скрытый нейрон вычисляет одну гиперплоскость; комбинация нескольких гиперплоскостей приближает кривые.

Эта история соответствует замечанию Хэмминга: каждое ограничение машинного рассуждения имеет геометрическую структуру под собой. Задача не в том, чтобы спорить о том, могут ли машины 'думать', а в том, чтобы определить геометрические ограничения и найти способы их обойти.

Критика Минского и Папперта 1969 года на персептрон использовала аргумент неразделимости XOR. Их книга 'Персептроны' почти убила исследования нейронных сетей на десять лет. Но многослойные сети решают проблему XOR. Что эта история предполагает о правильном способе интерпретации продемонстрированного ограничения системы машинного рассуждения? Конкретно: должно ли продемонстрированное геометрическое ограничение пониматься как постоянное или как зависящее от текущего класса гипотез? Дайте аргументированный ответ.