un — هندسة التفكير الآلي: الجزء الثالث

un

ضيف

1 / ?

حدود القرار كمستويات فائقة

يعيّن المصنف الثنائي كل إدخال إلى أحد الفئتين. حد القرار للمصنف يقسم فضاء الإدخال إلى منطقتين: واحدة لكل فئة. تحدد هندسة هذا الحد الأنماط التي يمكن للمصنف تعلمها.

مستوى فائق في ℝ^n: مجموعة جميع النقاط x التي تحقق w·x + b = 0، حيث w متجه وزن في ℝ^n و b انحياز قياسي. للمستوى الفائق بُعد n−1.

في 2D: المستوى الفائق هو خط. في 3D: مستوى مسطح. في n-D: فضاء فرعي مسطح ذو بُعد (n−1).

يصنّف المستقبِل بحساب w·x + b وإرجاع الفئة 1 إذا كانت موجبة، والفئة 0 إذا كانت سالبة. حد قراره هو مستوى فائق.

القابلية للفصل الخطي

تكون مجموعة بيانات قابلة للفصل الخطي في ℝ^n إذا كان هناك مستوى فائق يضع جميع نقاط الفئة 0 على جانب وجميع نقاط الفئة 1 على الجانب الآخر. هذه خاصية هندسية بحتة للمجموعة البيانية.

هندسة حدود القرار: القابلية للفصل الخطي & XOR

اختبار القابلية للفصل الخطي

مجموعة بيانات بوابة AND في 2D: نقاط الفئة 0 عند (0,0)، (1,0)، (0,1)؛ نقطة الفئة 1 عند (1,1). هذه المجموعة البيانية قابلة للفصل الخطي.

مجموعة بيانات XOR في 2D: نقاط الفئة 0 عند (0,0) و(1,1)؛ نقاط الفئة 1 عند (1,0) و(0,1). تقع هاتان الفئتان على أقطار متعاكسة.

تحقق من أن مجموعة بيانات XOR ليست قابلة للفصل الخطي في 2D. استخدم حجة هندسية: اشرح لماذا لا يمكن لأي خط في المستوى 2D فصل الفئتين. يجب أن تشير حجتك إلى مواقع النقاط الأربع والخاصية في الخط المستقيم التي تجعل الفصل مستحيلاً.

الرفع إلى أبعاد أعلى

XOR ليس قابلاً للفصل الخطي في 2D. الحل: رسم البيانات إلى فضاء بأبعاد أعلى حيث يصبح قابلاً للفصل الخطي. هذه الفكرة الأساسية لخدعة النواة.

خريطة الميزات: دالة φ: ℝ^n → ℝ^m (m > n) تحول كل نقطة إدخال إلى تمثيل بأبعاد أعلى.

بالنسبة لـ XOR، خريطة ميزات مفيدة واحدة: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

يضيف هذا بُعداً ثالثاً z = x₁ × x₂. تتحول نقاط XOR إلى:

- (0,0) → (0, 0, 0)، الفئة 0

- (1,0) → (1, 0, 0)، الفئة 1

- (0,1) → (0, 1, 0)، الفئة 1

- (1,1) → (1, 1, 1)، الفئة 0

في 3D: نقاط الفئة 0 عند (0,0,0) و(1,1,1)؛ نقاط الفئة 1 عند (1,0,0) و(0,1,0). الآن ابحث عن مستوى فاصل.

مستوى الفصل في الفضاء الثلاثي الأبعاد

بعد خريطة الميزات φ(x₁, x₂) = (x₁, x₂, x₁x₂)، تعيش بيانات XOR في 3D. للمستوى الفائق في 3D معادلة w₁x₁ + w₂x₂ + w₃z + b = 0.

ابحث عن مستوى فائق w·x + b = 0 في الفضاء 3D المحول يفصل بشكل صحيح فئات XOR. تحقق من مستواك الفائق بالتعويض عن جميع النقاط الأربع المحولة. يجب أن تعطي كل نقطة من الفئة 0 قيمة w·x + b < 0 (أو > 0) وكل نقطة من الفئة 1 يجب أن تعطي الإشارة المعاكسة.

نظرية كوفر: لماذا تساعد الأبعاد العالية

نظرية كوفر (1965): من المرجح أن تكون مشكلة تصنيف معقدة في فضاء عالي الأبعاد قابلة للفصل الخطي أكثر من الفضاء منخفض الأبعاد، بشرط ألا يكون الفضاء مكتظاً بالسكان.

العبارة غير الرسمية: إذا رسمت n نقطة بيانات إلى فضاء ذو بُعد d >> n، فإن احتمالية أن يكون التصنيف العشوائي قابلاً للفصل الخطي يقترب من 1.

النسخة الرسمية: لـ n نقطة في موضع عام في ℝ^d، يكون عدد التقسيمات الثنائية قابلة للفصل الخطي (التصنيفات) بالضبط 2 × Σ_{k=0}^{d} C(n−1, k) لـ d < n، وتساوي 2^n (جميع التقسيمات) لـ d ≥ n − 1.

الآثار العملية: خريطة الميزات φ التي ترفع XOR إلى 3D هي حالة خاصة من هذا المبدأ العام. الرفع إلى أبعاد أعلى يزيد من احتمالية الفصل. التكلفة: معاملات أكثر لملاءمة، ومخاطر أعلى للإفراط في الملاءمة.

مقابلة الانحياز-التباين كهندسة

حد قرار منخفض الأبعاد (معاملات قليلة): انحياز مرتفع (لا يمكن التقاط أنماط معقدة)، تباين منخفض (مستقر عبر العينات). حد قرار عالي الأبعاد (معاملات عديدة): انحياز منخفض، تباين مرتفع (يمكن الإفراط في الملاءمة للضوضاء في بيانات التدريب).

بُعد VC: ما مدى تعبيرية المصنف؟

بُعد Vapnik-Chervonenkis (VC) لفئة الفرضية H يقيس مدى تعقيد الفئة: أكبر عدد من النقاط التي يمكن لـ H أن تحطمها (تصنيفها بشكل صحيح في جميع 2^n التصنيفات الممكنة).

المستقبِل في ℝ^d: بُعد VC = d + 1. يمكن لمستوى فائق بـ d بُعد أن يحطم d + 1 نقاط (في موضع عام) لكن ليس d + 2.

يحدد بُعد VC تعقيد العينة: لتعلم فرضية بخطأ التعميم ε باحتمالية 1 − δ، تحتاج إلى تقريباً n ≥ (d × log(1/ε) + log(1/δ)) / ε عينات، حيث d هو بُعد VC.

مستقبِل في ℝ^3 له بُعد VC قدره 4. وفقاً لحد تعقيد عينة VC، كم عدد عينات التدريب المطلوبة تقريباً لتحقيق خطأ تعميم ε = 0.05 بثقة 1 − δ = 0.95؟ استخدم الحد المبسط n ≥ (d × log(1/ε) + log(1/δ)) / ε مع القيم المعطاة. أظهر جميع الحسابات.

حدود القرار وحدود قدرات الآلة

تتصل هندسة حدود القرار مباشرة بحدود تفكير الآلة لهامينج.

لا يمكن لمستقبِل أحادي الطبقة (مصنف مستوى فائق) أن يحل XOR. كانت هذه انتقادات مينسكي وبابيرت للمستقبِلات المبكرة في 1969. الحجة الهندسية: XOR ليس قابلاً للفصل الخطي. لا تستطيع الآلة حلها، ليس بسبب نقص في قوة الحوسبة، بل بسبب عدم توافق هندسي أساسي بين فئة الفرضية والمشكلة.

الحل: يمكن للشبكات متعددة الطبقات تمثيل حدود غير خطية. تنفذ الطبقات المخفية خريطة الميزات φ — رفع البيانات إلى أبعاد أعلى حيث يصبح الفصل الخطي ممكناً. تحسب كل خلية عصبية مخفية مستوى فائق واحد؛ يقترب مزيج المستويات الفائقة المتعددة من المنحنيات.

ترسم هذه القصة على ملاحظة هامينج: لكل قيد من قيود تفكير الآلة هيكل هندسي تحته. المهمة ليست الجدل حول ما إذا كانت الآلات 'يمكنها أن تفكر' بل تحديد القيود الهندسية والعثور على طرق للتعامل معها.

استخدمت انتقادات مينسكي وبابيرت 1969 للمستقبِل حجة عدم قابلية الفصل XOR. كتابهما، 'المستقبِلات'، كاد أن يقتل أبحاث الشبكات العصبية لمدة عقد. لكن الشبكات متعددة الطبقات تحل مشكلة XOR. ماذا تقترح هذه القصة حول الطريقة الصحيحة لتفسير قيد موضح لنظام تفكير آلي؟ على وجه التحديد: هل يجب فهم القيد الهندسي الموضح كدائم أم كمعتمد على فئة الفرضية الحالية؟ أعط إجابة مبدأ عليها.