un — Hình học của Lý luận Máy: Phần III

un

khách

1 / ?

trở lại bài học

Ranh giới Quyết định như các Siêu phẳng

Một bộ phân loại nhị phân gán mỗi đầu vào cho một trong hai lớp. Ranh giới quyết định của bộ phân loại chia không gian đầu vào thành hai vùng: một cho mỗi lớp. Hình học của ranh giới đó xác định các mẫu nào mà bộ phân loại có thể học.

Một siêu phẳng trong ℝ^n: tập hợp tất cả các điểm x thỏa mãn w·x + b = 0, trong đó w là một vectơ trọng số trong ℝ^n và b là một độ lệch vô hướng. Một siêu phẳng có n−1 chiều.

Trong 2D: một siêu phẳng là một đường thẳng. Trong 3D: một mặt phẳng. Trong n-D: một không gian con phẳng (n−1)-chiều.

Một perceptron phân loại bằng cách tính toán w·x + b và trả về lớp 1 nếu dương, lớp 0 nếu âm. Ranh giới quyết định của nó là một siêu phẳng.

Tính tách biệt tuyến tính

Một tập dữ liệu tách biệt tuyến tính trong ℝ^n nếu tồn tại một siêu phẳng đặt tất cả các điểm lớp 0 ở một bên và tất cả các điểm lớp 1 ở bên kia. Đây là một thuộc tính hình học thuần túy của tập dữ liệu.

Decision Boundary Geometry: Linear Separability & XOR

Kiểm tra Tính tách biệt Tuyến tính

Tập dữ liệu cổng AND trong 2D: các điểm lớp 0 tại (0,0), (1,0), (0,1); điểm lớp 1 tại (1,1). Tập dữ liệu này tách biệt tuyến tính.

Tập dữ liệu XOR trong 2D: các điểm lớp 0 tại (0,0) và (1,1); các điểm lớp 1 tại (1,0) và (0,1). Hai lớp này nằm trên các đường chéo đối diện.

Xác minh rằng tập dữ liệu XOR KHÔNG tách biệt tuyến tính trong 2D. Sử dụng một lập luận hình học: giải thích tại sao không có đường thẳng nào trong mặt phẳng 2D có thể tách hai lớp. Lập luận của bạn phải tham chiếu đến các vị trí của bốn điểm và thuộc tính của một đường thẳng làm cho việc tách biệt không thể xảy ra.

Nâng lên Các chiều Cao hơn

XOR không tách biệt tuyến tính trong 2D. Giải pháp: ánh xạ dữ liệu vào không gian có chiều cao hơn nơi nó trở thành tách biệt tuyến tính. Đây là ý tưởng cốt lõi của thủ thuật kernel.

Bản đồ đặc trưng: một hàm số φ: ℝ^n → ℝ^m (m > n) biến đổi mỗi điểm đầu vào thành một biểu diễn có chiều cao hơn.

Đối với XOR, một bản đồ đặc trưng hữu ích: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

Điều này thêm một chiều thứ ba z = x₁ × x₂. Các điểm XOR biến đổi thành:

- (0,0) → (0, 0, 0), lớp 0

- (1,0) → (1, 0, 0), lớp 1

- (0,1) → (0, 1, 0), lớp 1

- (1,1) → (1, 1, 1), lớp 0

Trong 3D: các điểm lớp 0 nằm tại (0,0,0) và (1,1,1); các điểm lớp 1 nằm tại (1,0,0) và (0,1,0). Bây giờ hãy tìm một mặt phẳng tách biệt.

Mặt phẳng tách biệt trong 3D

Sau bản đồ đặc trưng φ(x₁, x₂) = (x₁, x₂, x₁x₂), dữ liệu XOR sống trong 3D. Một siêu phẳng trong 3D có phương trình w₁x₁ + w₂x₂ + w₃z + b = 0.

Tìm một siêu phẳng w·x + b = 0 trong không gian 3D đã biến đổi tách biệt chính xác các lớp XOR. Xác minh siêu phẳng của bạn bằng cách thay thế tất cả bốn điểm đã biến đổi. Mỗi điểm lớp 0 phải cho w·x + b < 0 (hoặc > 0) và mỗi điểm lớp 1 phải cho dấu hiệu ngược lại.

Định lý Cover: Tại sao các chiều cao hơn Trợ giúp

Định lý Cover (1965): một vấn đề phân loại phức tạp được đặt trong không gian có chiều cao hơn có nhiều khả năng tách biệt tuyến tính hơn trong không gian có chiều thấp hơn, với điều kiện là không gian không được dân cư dày đặc.

Phát biểu không chính thức: nếu bạn ánh xạ n điểm dữ liệu sang không gian có chiều d >> n, xác suất gán nhãn ngẫu nhiên tách biệt tuyến tính tiến gần đến 1.

Phiên bản chính thức: đối với n điểm ở vị trí chung trong ℝ^d, số lượng dichotomies tách biệt tuyến tính (gán lớp) chính xác là 2 × Σ_{k=0}^{d} C(n−1, k) cho d < n, và bằng 2^n (tất cả dichotomies) cho d ≥ n − 1.

Hàm ý thực tế: bản đồ đặc trưng φ nâng XOR lên 3D là một trường hợp đặc biệt của nguyên tắc chung này. Nâng lên các chiều cao hơn tăng khả năng tách biệt. Chi phí: nhiều tham số hơn để phù hợp, rủi ro quá khớp cao hơn.

Sự cân bằng Thiên vị-Phương sai như một Hình học

Ranh giới quyết định có chiều thấp (ít tham số): thiên vị cao (không thể chụp các mẫu phức tạp), phương sai thấp (ổn định trên các mẫu). Ranh giới có chiều cao (nhiều tham số): thiên vị thấp, phương sai cao (có thể quá khớp với tiếng ồn trong dữ liệu đào tạo).

Thứ nguyên VC: Bộ phân loại có Biểu cảm bao nhiêu?

Thứ nguyên Vapnik-Chervonenkis (VC) của một lớp giả thuyết H đo độ phức tạp của lớp: số lượng lớn nhất của các điểm mà H có thể vỡ (phân loại chính xác trong tất cả 2^n nhãn có thể có).

Perceptron trong ℝ^d: thứ nguyên VC = d + 1. Một siêu phẳng d-chiều có thể vỡ d + 1 điểm (ở vị trí chung) nhưng không vỡ d + 2.

Thứ nguyên VC xác định độ phức tạp mẫu: để học một giả thuyết với lỗi tổng quát hóa ε với xác suất 1 − δ, bạn cần khoảng n ≥ (d × log(1/ε) + log(1/δ)) / ε mẫu, trong đó d là thứ nguyên VC.

Một perceptron trong ℝ^3 có thứ nguyên VC 4. Theo giới hạn độ phức tạp mẫu VC, cần bao nhiêu mẫu đào tạo để đạt được lỗi tổng quát hóa ε = 0.05 với độ tin cậy 1 − δ = 0.95? Sử dụng giới hạn đơn giản n ≥ (d × log(1/ε) + log(1/δ)) / ε với các giá trị đã cho. Hiển thị tất cả các phép tính.

Ranh giới Quyết định & Giới hạn Khả năng Máy

Hình học của các ranh giới quyết định liên kết trực tiếp với các giới hạn lý luận máy của Hamming.

Một perceptron một lớp (bộ phân loại siêu phẳng) không thể giải XOR. Đây là lời chỉ trích của Minsky & Papert về các perceptron ban đầu vào năm 1969. Lập luận hình học: XOR không tách biệt tuyến tính. Máy không thể giải quyết nó, không phải vì thiếu sức mạnh tính toán, mà vì một sự không tương thích hình học cơ bản giữa lớp giả thuyết và vấn đề.

Giải pháp: các mạng lưới đa lớp có thể biểu diễn các ranh giới phi tuyến tính. Các lớp ẩn thực hiện bản đồ đặc trưng φ — nâng dữ liệu lên các chiều cao hơn nơi tách biệt tuyến tính trở nên có thể. Mỗi nơ-ron ẩn tính toán một siêu phẳng; sự kết hợp của nhiều siêu phẳng xấp xỉ các đường cong.

Lịch sử này ánh xạ vào quan sát của Hamming: mọi giới hạn của lý luận máy có một cấu trúc hình học ở bên dưới. Nhiệm vụ không phải là tranh luận về việc máy có thể 'suy nghĩ' hay không mà là xác định các ràng buộc hình học và tìm cách vượt qua chúng.

Lời chỉ trích của Minsky & Papert về perceptron năm 1969 sử dụng lập luận về tính không tách biệt của XOR. Cuốn sách của họ, 'Perceptrons,' gần như đã giết chết nghiên cứu mạng thần kinh trong một thập kỷ. Nhưng các mạng lưới đa lớp giải quyết vấn đề XOR. Lịch sử này gợi ý gì về cách đúng để diễn giải một giới hạn được chứng minh của một hệ thống lý luận máy? Cụ thể: một giới hạn hình học được chứng minh có nên được hiểu là vĩnh viễn hay là phụ thuộc vào lớp giả thuyết hiện tại? Hãy đưa ra một câu trả lời có nguyên tắc.