un — მანქანური აზროვნების გეომეტრია: III

un

სტუმარი

1 / ?

გადაწყვეტის საზღვრები როგორც ჰიპერთვლეები

ორ-კლასიანი კლასიფიკატორი თითოეულ შეყვანას ორი კლასიდან ერთ-ერთს ანიჭებს. კლასიფიკატორის გადაწყვეტის საზღვარი შეყვანის სივრცეს ორ რეგიონად ყოფს: თითოეული კლასისთვის ერთი. ამ საზღვრის გეომეტრია განსაზღვრავს რა ნიმუშებს შეუძლია კლასიფიკატორს ისწავლოს.

ჰიპერთვლე ℝ^n-ში: ყველა წერტილების სიმრავლე x რომელიც აკმაყოფილებს w·x + b = 0, სადაც w არის წონის ვექტორი ℝ^n-ში და b არის სკალარი смещ. ჰიპერთვლე აქვს n−1 განზომილება.

2D-ში: ჰიპერთვლე არის ხაზი. 3D-ში: ბრტყელი სიბრტყე. n-D-ში: ბრტყელი (n−1)-განზომილებიანი ქვესივრცე.

პერცეპტრონი კლასიფიკაციას ახდენს w·x + b-ის გამოთვლით და აბრუნებს კლასს 1 თუ დადებითი, კლასი 0 თუ უარყოფითი. მისი გადაწყვეტის საზღვარი არის ჰიპერთვლე.

წრფივი გამიჯვნა

მონაცემთა ნაკრები არის წრფივი გამიჯვნა ℝ^n-ში თუ არსებობს ჰიპერთვლე რომელიც ყველა კლასი-0 წერტილს ერთ მხარეს აცემს და ყველა კლასი-1 წერტილს მეორე მხარეს. ეს არის მონაცემთა ნაკრების წერმდებელი გეომეტრიული თვისება.

გადაწყვეტის საზღვრის გეომეტრია: წრფივი გამიჯვნა & XOR

წრფივი გამიჯვნის ტესტირება

AND კარიბჩის მონაცემთა ნაკრები 2D-ში: კლასი-0 წერტილები (0,0), (1,0), (0,1); კლასი-1 წერტილი (1,1). ეს მონაცემთა ნაკრები არის წრფივი გამიჯვნა.

XOR მონაცემთა ნაკრები 2D-ში: კლასი-0 წერტილები (0,0) და (1,1); კლასი-1 წერტილები (1,0) და (0,1). ეს ორი კლასი დევს მოპირდაპირე დიაგონალებზე.

გადაამოწმეთ რომ XOR მონაცემთა ნაკრები არ არის წრფივი გამიჯვნა 2D-ში. გამოიყენეთ გეომეტრიული არგუმენტი: ახსენით რატომ არ არსებობს 2D სიბრტყის ხაზი რომელიც ორი კლასი გამიჯოს. თქვენი არგუმენტი უნდა მიუთითოს ოთხი წერტილის პოზიციებზე და სწორი ხაზის თვისებაზე რომელიც გამიჯვნას შეუძლებელს ხდის.

აწევა უმაღლესი განზომილებებში

XOR არ არის წრფივი გამიჯვნა 2D-ში. ამოხსნა: მონაცემები გადახაზეთ უმაღლესი განზომილებიანი სივრცეში სადაც ის წრფივი გამიჯვნა ხდება. ეს არის ბირთვის ხრიკის ძირითადი იდეა.

ფიჩურ რუკა: ფუნქცია φ: ℝ^n → ℝ^m (m > n) რომელიც თითოეულ შეყვანის წერტილს უმაღლესი განზომილებიანი წარმოდგენით აქცევს.

XOR-ისთვის, ერთი სასარგებლო ფიჩურ რუკა: φ(x₁, x₂) = (x₁, x₂, x₁x₂)

ეს დამატებითი საზომი z = x₁ × x₂ უძღვება. XOR წერტილები ტრანსფორმირდება:

- (0,0) → (0, 0, 0), კლასი 0

- (1,0) → (1, 0, 0), კლასი 1

- (0,1) → (0, 1, 0), კლასი 1

- (1,1) → (1, 1, 1), კლასი 0

3D-ში: კლასი-0 წერტილები (0,0,0)-ზე და (1,1,1)-ზე; კლასი-1 წერტილები (1,0,0)-სა და (0,1,0)-ზე. ახლა ქვეშ გამყოფი სიბრტყე.

გამიჯვნის სიბრტყე 3D-ში

ფიჩურ რუკის φ(x₁, x₂) = (x₁, x₂, x₁x₂) შემდეგ, XOR მონაცემები ცხოვრობენ 3D-ში. ჰიპერთვლე 3D-ში აქვს განტოლება w₁x₁ + w₂x₂ + w₃z + b = 0.

იპოვეთ ჰიპერთვლე w·x + b = 0 ტრანსფორმირებული 3D სივრცეში რომელიც სწორად გამიჯოს XOR კლასები. გადაამოწმეთ თქვენი ჰიპერთვლე ოთხივე ტრანსფორმირებული წერტილის ჩანაცვლებით. თითოეული კლასი-0 წერტილი უნდა დაბეჭდოს w·x + b < 0 (ან > 0) და თითოეული კლასი-1 წერტილი უნდა დაბეჭდოს საპირისპირო ნიშანი.

კავერის თეორემა: რატომ ეხმარება მაღალი განზომილებები

კავერის თეორემა (1965): რთული კლასიფიკაციის პრობლემა თუ აქციოთ მაღალი განზომილებიანი სივრცეში უფრო ალბათობა აქვს წრფივი გამიჯვნა ვიდრე დაბალი განზომილებიანი სივრცეში, იმ პირობით რომ სივრცე არ არის მკრთალდ შემოსილი.

არაფორმალური გამოთქმა: თუ n მონაცემის წერტილი აქციოთ d >> n განზომილებიანი სივრცეში, ალბათობა რომ შემთხვევითი კოდირება წრფივი გამიჯვნა არის მიდის 1-თან.

ფორმალური ვერსია: n წერტილებისთვის ზოგადი პოზიციაში ℝ^d-ში, წრფივი გამიჯვნადი დიქოტომიების რაოდენობა (კლასის დავალება) ზუსტად 2 × Σ_{k=0}^{d} C(n−1, k) d < n-სთვის, და 2^n (ყველა დიქოტომია) d ≥ n − 1-სთვის.

პრაქტიკული მნიშვნელობა: ფიჩურ რუკა φ რომელიც აწევს XOR-ს 3D-ში არის ამ ზოგადი პრინციპის განსაკუთრებული შემთხვევა. აწევა უმაღლეს განზომილებაში აზრდის ალბათობას გამიჯვნის. ხარჯი: მეტი პარამეტრი მორგების, უმაღლესი რისკი ზეთჯმის.

მიკერძოება-ვარიანსის სამეფო როგორც გეომეტრია

დაბალი განზომილებიანი გადაწყვეტის საზღვარი (ცოტა პარამეტრი): მაღალი მიკერძოება (არ შეუძლია რთული ნიმუშების დაჭერა), დაბალი ვარიანსი (სტაბილური ნიმუშების გარშემო). მაღალი განზომილებიანი საზღვარი (ბევრი პარამეტრი): დაბალი მიკერძოება, მაღალი ვარიანსი (შეუძლია ზეთჯმა გაწაფვის მონაცემების ხმაურამდე).

VC განზომილება: რამდენად გამოხატული კლასიფიკატორი?

ვაპნიკ-ჩერვონენკის (VC) განზომილება ჰიპოთეზის კლასის H სიმძლავრეს ზომავს: უდიდესი რაოდენობის წერტილები რომელიც H შეუძლია დაასხვროს (სწორად კლასიფიცირება ყველა 2^n შესაძლო კოდირებაში).

პერცეპტრონი ℝ^d-ში: VC განზომილება = d + 1. d-განზომილებიანი ჰიპერთვლე შეუძლია დასხვროს d + 1 წერტილი (ზოგადი პოზიციაში) მაგრამ არა d + 2.

VC განზომილება განსაზღვრავს ნიმუშის სიმძლავრე: მუშაობის ჰიპოთეზაზე ზოგადი ცდომილება ε უფრო 1 − δ ალბათობაზე, სჭირდებათ დაახლოებით n ≥ (d × log(1/ε) + log(1/δ)) / ε ნიმუშები, სადაც d არის VC განზომილება.

პერცეპტრონი ℝ^3-ში აქვს VC განზომილება 4. VC ნიმუშის სიმძლავრის ზღვარის მიხედვით, დაახლოებით რამდენი გაწაფვის ნიმუში სჭირდება ზოგადი ცდომილება ε = 0.05 რომ მივიღოთ დარწმუნებით 1 − δ = 0.95? გამოიყენეთ გამარტივებული ზღვარი n ≥ (d × log(1/ε) + log(1/δ)) / ε მოცემული მნიშვნელობებით. აჩვენეთ ყველა გამოთვლა.

გადაწყვეტის საზღვრები & მანქანური უნარის ზღვარი

გადაწყვეტის საზღვრის გეომეტრია პირდაპირ 連結დება ჰამინგის მანქანური აზროვნების ზღვარებთან.

მხოლოდ-ერთი-ფენიანი პერცეპტრონი (ჰიპერთვლე კლასიფიკატორი) არ შეუძლია XOR-ის ამოხსნა. ეს იყო მინსკის და პაპერტის კრიტიკა ადრინდელ პერცეპტრონებზე 1969 წელს. გეომეტრიული არგუმენტი: XOR არ არის წრფივი გამიჯვნა. მანქანა არ შეუძლია ამოხსნა, არა იმიტომ რომ ხელმოკიდებული გამოთვლითი სიმძლავრე, მაგრამ იმიტომ რომ ფუნდამენტური გეომეტრიული შეუთავსებლობა ჰიპოთეზის კლასი და პრობლემა შორის.

გამოსავალი: მრავალ-ფენიანი ქსელები შეუძლია ხაზემკრთალი საზღვრების წარმოდგენა. ფუქსი ფენები ითვალიან ფიჩურ რუკას φ — აწევა მონაცემებს უმაღლეს განზომილებაში სადაც წრფივი გამიჯვნა შესაძლებელი ხდება. თითოეული ფუქსი ნეირონი ითვალიან ერთ ჰიპერთვლე; რამდენიმე ჰიპერთვლეების კომბინაცია კუმულაციურად მიახლოებით მრუდეები.

ეს ისტორია რუკაა ჰამინგის დაკვირვებაში: ყველა მანქანური აზროვნების ზღვარის ქვეშ აქვს გეომეტრიული სტრუქტურა. ამოცანა არ არის დავის პროცესი რომ მანქანა 'შეუძლია აზროვნება' მაგრამ გეომეტრიული შეზღუდვების დამკვიდრება და წარმავალი გზის პოვნა მათ ირგვლივ.

მინსკის & პაპერტის 1969 წლის კრიტიკა პერცეპტრონზე გამოიყენა XOR არა-გამიჯვნის არგუმენტი. მათი წიგნი, 'პერცეპტრონები,' თითქმის მოკლა ნეირონული ქსელის კვლევა ათი წლით. მაგრამ მრავალ-ფენიანი ქსელები გადაჭრის XOR პრობლემა. რას მეუბნება ეს ისტორია სწორი გზის შესახებ მანქანური აზროვნების სისტემის დემონსტრირებული ზღვარის ინტერპრეტაცია? კერძოდ: დემონსტრირებული გეომეტრიული ზღვარი უნდა დაიხვეწოს მუდმივი თუ პირობითი მიმდინარე ჰიპოთეზის კლასზე? მოიყვანეთ პრინციპიანი პასუხი.