მონაცემები ცხოვრობენ გეომეტრიულ სივრცეში
ყველაფერი ვექტორია
მანქანათა სწავლებაში მონაცემები ცხოვრობენ გეომეტრიულ სივრცეში. თითოეული მონაცემთა წერტილი N მახასიათებელით არის წერტილი N-განზომილებიან სივრცეში. ეს არ არის მეტაფორა — ეს არის ყველა ალგორითმის სიტყვაბრივი მათემატიკური საფუძველი.
დაწერილი ციფრის სურათი (28×28 პიქსელი) არის წერტილი 784-განზომილებიან სივრცეში. თითოეული პიქსელი არის ერთი კოორდინატი. ორი მსგავსი ციფრი არის ახლოს მდებარე წერტილები ამ სივრცეში. ორი განსხვავებული ციფრი არის შორს მდებარე.
სიტყვის ჩასმა აკავშირებს სიტყვას წერტილთან 300-განზომილებიან სივრცეში. სიტყვები მსგავსი მნიშვნელობით დასრულდება იმავე სამეზობლოში. 'ძაღლი' & 'ლოკოკინი' ახლოს არიან. 'ძაղლი' & 'პარლამენტი' შორს არიან.
მომხმარებლის პროფილი 50 მახასიათებელით (ასი, ყიდვის ისტორია, დაჭერის ნიმუშები) არის წერტილი 50-განზომილებიან სივრცეში. რეკომენდაციის ძრავები პოულობენ მომხმარებლებს, რომლებიც 'ახლოს' არიან ამ სივრცეში & გვთავაზობენ იმას, რასაც მათი გეომეტრიული მეზობლები მოწონეს.
გეომეტრია არის როგორ ჩვენ ვფიქრობთ ამ სივრცეებზე. მანძილი, მიმართულება, კუთხე, პროექცია — ეს არის მანქანათა სწავლების ფუნდამენტური ოპერაციები.
ვექტორის ოპერაციები — აგების ბლოკები
წერტილოვანი ნამრავლი აძლევს ძალას ყველაფერს
სამი ვექტორის ოპერაცია ყველაზე მნიშვნელოვანია მანქანათა სწავლებაში:
ვექტორის შეკრება — სიგნალების ან მახასიათებლების კომბინირება. თუ დამატებთ ორ სიტყვის ვექტორს, მიიღებთ ვექტორს, რომელიც წარმოადგენს ორივე ცნებას შერწეულად.
სკალარული გამრავლება — ვექტორის მასშტაბირება ცვლის მის მასშტაბს მის მიმართულების შეცვლის გარეშე. გრადიენტული დაღმართის სწავლის მაჩვენებელი არის სკალარული გამრავლებელი.
წერტილოვანი ნამრავლი — ეს არის სამუშაო ცხენი. ორი ვექტორის a & b წერტილოვანი ნამრავლი უდრის |a||b|cos(θ), სადაც θ არის მათ შორის კუთხე. როდესაც ვექტორები ნორმალიზებულია (ერთეულის სიგრძე), წერტილოვანი ნამრავლი არის კუთხის კოსინუსი.
კოსინუსის მსგავსება = cos(θ) = (a·b) / (|a||b|)
ეს ერთიანი ფორმულა აძლევს ძალას:
- საძიებო ძრავები — დოკუმენტების პოვნა მსგავსი კითხვასთან
- ყურადღების მექანიზმები — რომელი ტოკენი მნიშვნელოვანი თითოეული მეორისთვის
- რეკომენდაციის ძრავები — მომხმარებლის პროფილების მატჩინგ ელემენტის პროფილებთან
- ძიებით გამდიდრებული გენერაცია — რელევანტური კონტექსტის პოვნა ენის მოდელებისთვის
cos(θ) = 1 ნიშნავს, რომ ვექტორები მოწვევენ ზუსტად იმავე მიმართულებით (იდენტური მნიშვნელობა). cos(θ) = 0 ნიშნავს, რომ ისინი პერპენდიკულარული არიან (უკავშირო). cos(θ) = -1 ნიშნავს, რომ ისინი მოწვევენ საპირისპირო მიმართულებით (საპირისპირო მნიშვნელობა).
კოსინუსის მსგავსება
კოსინუსის მსგავსება არის ერთ-ერთი ყველაზე გამოყენებული მეტრიკა თანამედროვე მანქანათა სწავლების სისტემებში.
მანძილის სამი გზა
მანძილის მეტრიკის არჩევა ცვლის რა არის 'მსგავსი'
სივრცეში ორი წერტილი მოცემული, მანძილის გასაზომად უამრავი ხერხი არსებობს. თითოეული მეტრიკა განსაზღვრავს სხვადსხვა გეომეტრიას, & ეს გეომეტრია განაჩენს რა განიხილავს თქვენი მოდელი 'მსგავს'.
ევკლიდეს მანძილი (L2) — სწორი ხაზის მანძილი. d = √(Σ(aᵢ - bᵢ)²). ეს არის 'როგორც ღორბელი მფრინავებს' მანძილი, ის, რომელიც თქვენი ინტუიცია მოელის. იგი თანაბრად განიხილავს ყველა განზომილებას & მგრძნობიარეა მაგნიტუდის მიმართ.
მანჰეტენის მანძილი (L1) — ქსელის სიარულის მანძილი. d = Σ|aᵢ - bᵢ|. ქალაქის ბლოკების ნავიგაციის მსგავსი — შეგიძლიათ მხოლოდ ღერძების გასწვრივ გადაადგილება, არასდროს დიაგონალურად. უფრო ძლიერი გარეშე ერთ განზომილებაში გამორჩენილი მნიშვნელობების მიმართ რადგან ის არ კვადრატის სხვაობას.
კოსინუსის მანძილი — ზომავს კუთხეს ვექტორებს შორის, სრულებით უგულელყოფს მაგნიტუდას. d = 1 - cos(θ). ორი დოკუმენტი იმავე თემაზე აქვს მცირე კოსინუსის მანძილი სიგრძის მიუხედავად. ორი თანაბრად გრძელი დოკუმენტი განსხვავებული თემებზე აქვს დიდი კოსინუსის მანძილი.
არჩევანი არ არის თვითნებური. თუ მაგნიტუდა მნიშვნელოვანია (წამალი ზეწოლა, რეაქტორის ტემპერატურა), გამოიყენეთ ევკლიდეს. თუ თქვენ აინტერესებთ პროპორციები ვიდრე აბსოლუტური მნიშვნელობები (სიტყვების სიხშირის განაწილება, მომხმარებლის პროფილის კოეფიციენტები), გამოიყენეთ კოსინუსი. თუ ინდივიდუალური მახასიათებლის განსხვავებები უფრო მნიშვნელოვანია ვიდრე მთლიანი მაგნიტუდა (გარემოების დიაგნოზი, რომელში ერთი სენსორი სპაიკი მნიშვნელოვანია), გამოიყენეთ მანჰეტენი.
K-უახლოესი მეზობელი — სუფთა გეომეტრია
KNN: უმარტივესი გეომეტრიული ალგორითმი
K-უახლოესი მეზობელი არის ყველაზე გამჭვირვალე გეომეტრიული ალგორითმი მანქანათა სწავლებაში. მას არ აქვს ტრენინგის ფაზა — ეს არის ტრენინგის მონაცემები.
ახალი წერტილის კლასიფიკაციისთვის: იპოვნეთ K უახლოესი წერტილი სწავლების მონაცემებში. დაე, ისინი ხმას მისცენ. უმრავლესობის კლასი ის აგებს. ეს არის მთელი ალგორითმი.
გადაწყვეტილების საზღვარი რომელიც KNN აწარმოებს არის ვორონოის დიაგრამა — სივრცის დანაწილება რომელში ყველა წერტილი მიეკუთვნება მისი უახლოესი სწავლების მაგალითის რეგიონი. საზღვრები არის პერპენდიკულარული მხეთა შორის მიმდებარე სწავლების წერტილებს შორის.
აქ არის გეომეტრიული ხედვა რომელიც მნიშვნელოვანია: მანძილის მეტრიკის არჩევა სრულებით ცვლის ვორონოის დიაგრამას. ევკლიდეს მანძილი აწარმოებს მრუდ, წრიულ საზღვრებს. მანჰეტენის მანძილი აწარმოებს ბრილიანტის ფორმის საზღვრებს. კოსინუსის მანძილი აწარმოებს კუთხოვანი, კონუსის ფორმის საზღვრებს.
იგივე სწავლების მონაცემი. იგივე K. განსხვავებული მანძილის მეტრიკა. სრულებით განსხვავებული მოდელი. გეომეტრია არის მოდელი.
მანძილის მეტრიკის არჩევა
მანძილის მეტრიკები არ არიან ურთიერთშენაცვლებადი — სწორი არჩევანი დამოკიდებულია თუ რა ნიშნავს 'მსგავსი' თქვენი მონაცემებისთვის.
ჰიპერსიბრტყეები — ბრტყელი საზღვრები მაღალი განზომილებებში
ყველა ხაზოვანი კლასიფიკატორი პოულობს ჰიპერსიბრტყეს
ხაზოვანი კლასიფიკატორი პოულობს ბრტყელ ზედაპირს რომელიც ჰყოფს ორ კლასს. ამ ზედაპირის განზომილება დამოკიდებულია სივრცეზე:
- 2D სივრცეში, საზღვარი არის ხაზი (1-განზომილებიანი)
- 3D სივრცეში, საზღვარი არის სიბრტყე (2-განზომილებიანი)
- 784D სივრცეში (MNIST ციფრის სურათები), საზღვარი არის 783-განზომილებიანი ჰიპერსიბრტყე
ზოგადი შაბლონი: N-განზომილებიან სივრცეში, გადაწყვეტილების საზღვარი არის (N-1)-განზომილებიანი ბრტყელი ზედაპირი რომელსაც ჰიპერსიბრტყე ეწოდება.
ლოგისტიკური რეგრესია, სამხმელი ვექტორული მანქანები, & ერთ-ფენიანი პერცეპტრონი ყველა ჰიპერსიბრტყის მაძებელი. ისინი განსხვავდებიან თუ როგორ პოულობენ საუკეთესო ჰიპერსიბრტყეს:
- ლოგისტიკური რეგრესია ზრდის სწორი კლასიფიკაციის ალბათობას
- SVMs ზრდის გეომეტრიულ მარჯნას — მანძილი ჰიპერსიბრტყიდან უახლოესი მონაცემთა წერტილებამდე
- პერცეპტრონი უბრალოდ პოულობს რაიმე ჰიპერსიბრტყეს რომელიც ჰყოფს მონაცემებს, ოპტიმალურობის გარანტიის გარეშე
ხაზოვანი კლასიფიკატორის წონის ვექტორი არის ჰიპერსიბრტყის ნორმალური ვექტორი. მიკერძოებითი ტერმინი გრძელდება ჰიპერსიბრტყე წყაროდან. ეს არის გეომეტრიული ობიექტი გეომეტრიული ინტერპრეტაციით.
მიღმა ბრტყელი საზღვრების
როდესაც მონაცემი არ არის ხაზოვნად გამიჯული
ბევრი რეალური სამყародან პრობლემა არ შეიძლება ამოხსნა ბრტყელი საზღვრით. განიხილეთ კატების სურათების კლასიფიკაცია წინააღმდეგ ძაღლი — ერთიანი ჰიპერსიბრტყე პიქსელის სივრცეში მათ სუფთად არ გამიჯავს.
ორი გეომეტრიული სტრატეგია გამოჩნდება:
სტრატეგია 1: ბირთვის ხერხი — ტრანსფორმირეთ მონაცემი უფრო მაღალ-განზომილებიან სივრცეში სადაც ეს არის ხაზოვნად გამიჯული. კლასიკური მაგალითი: წერტილი წრის შიგნით (კლასი A) & წერტილი გარეთ (კლასი B) 2D-ში. ერთიანი ხაზი არ გამიჯავს მათ. მაგრამ დამატებული მესამე განზომილება z = x² + y², & შიგნით წერტილი (მცირე x² + y²) დაბლა ზე ხოლო გარეთ წერტილი (დიდი x² + y²) მაღლა ზე. ახლა ბრტყელი სიბრტყე გამიჯავს მათ იდეალურად.
SVMs ბირთვის ფუნქციებით ამ ელემენტი — ისინი გამოთვლიან წერტილოვანი პროდუქტი მაღალ-განზომილებიან სივრცეში სიტყვიერი მედიტაციის აქტუალური მაღალ-განზომილებიანი ვექტორი. ეს ეწოდება 'ბირთვის ხერხი' & ეს არის სუფთა გეომეტრიული მხედელობა.
სტრატეგია 2: ნეირონული ქსელი — დაწერტილებული ხაზოვანი ტრანსფორმაცია არახაზოვანი აქტივაციის ფუნქციებით. თითოეული ფენი ხორბლის ხაზოვანი ტრანსფორმაცია (მატრიცული გამრავლება = ბრუნვა + მასშტაბირება + კვეცა) რომელსაც მოჰყვება არახაზოვანი 'ღამე' (ReLU, sigmoid, tanh). მრავალი ხაზოვანი-ემხო-კამპი ოპერაციის კომპოზიცია შეუძლია მიახლოვება რაიმე უწყვეტი საზღვრის ფორმა.
ღრმა ნეირონული ქსელი არის ჯამი გეომეტრიული ტრანსფორმაცია რომელიც ღებავს შეყვანის სივრცე სამ კლასი გადახდის გეომეტრიულად გამოყენებადი დასკვნის ფენში.
წრიული მონაცემის გამიჯვა
ეს არის ერთ-ერთი ყველაზე მნიშვნელოვანი გეომეტრიული პრობლემა მანქანათა სწავლებაში.
დანაკარგების ზედაპირი
ტრენინგი = უბრელი დაღმართი ზედაპირზე
ყველა მანქანათა სწავლების მოდელი აქვს პარამეტრი — წონა & მიკერძოებითი. დანაკარგების ფუნქცია ზომავს როგორ გაბი მოდელის პროგნოზი. ერთად, ეს განსაზღვრავს დანაკარგების ზედაპირი: ზღვრიქვესი რომელში თითოეული წერტილი შეესაბამება კონკრეტული პარამეტრი კომპლექტი, & სიმაღლე არის დანაკარგი.
მოდელი 2 პარამეტრით, დანაკარგების ზედაპირი არის 3D ზღვრიქვესი თქვენ შეიძლება ვიზუალიზაცია — ბორცვი, ხეობა, & ბრტყელი. მოდელი 175 მილიარდი პარამეტრი (მსგავსი GPT-3), დანაკარგების ზედაპირი გამოჩნდება 175-მილიარდი-განზომილებიანი სივრცე. მათემატიკა არის იდენტური.
გრადიენტული დაღმართი არის ალგორითმი რომელიც ნავიგაცია ამ ზედაპირზე. გრადიენტი არის გეომეტრიული ობიექტი — ვექტორი რომელიც მიუთითებს მკაცროვ აღმართის მიმართულება. ლანგარის დაბლის შესამცირებლად, გადაადგილდით საპირისპირო მიმართულება: უარყოფითი გრადიენტი. ეს არის სიტყვაბრივი სიარული დაღმართი.
სწავლის მაჩვენებელი ახლახან ნაბიჯის ზომა. ძალიან დიდი & თქვენ ზემოჰკიდი ხეობა. ძალიან მცირე & თქვენ ხვანებ. გრადიენტი გიკარებთ მიმართულება; სწავლის მაჩვენებელი გიკარებთ რამდენი შორს ნაბიჯი.
უნაგირის წერტილი, მინიმა, & გეომეტრია მაღალი განზომილებების
დანაკარგების ზედაპირი არ არის უბრალო თასი
ნაიბი სურათი ტრენინგი კარგა ხვდება უბრალო თასი ერთი ღრმაერთი წერტილი. რეალობა არის აშილი უფრო რთული:
ადგილობრივი მინიმა — ხეობა რომელი არ არის ღრმაერთი. გრადიენტული დაღმართი შეიძლება ჯოხს აქ, დაკმაყოფილდა რომ ყველა მიმართულება აღმართი, ხოლო ღრმაერთი ხეობა გამოჩნდება სხვა ადგილ.
უნაგირის წერტილი — ჩატარებული მსგავსი უნაგირი. დანაკარგი მრუდი დაბლა ზე ზოგიერთი განზომილებაში & აღმართი ზოგიერთი ხე. 2D ეს არის იშვიათი. მაღალი განზომილებებში, უნაგირის წერტილი არის ექსპონენციალურად უფრო გავრცელებული ვიდრე ადგილობრივი მინიმა. კრიტიკული წერტილი 1000-განზომილებიან სივრცეში აქვს კრივა აღმართი მთელი 1000 განზომილებაში რომ იყოს ადგილობრივი მინიმა. თუ თუნდაც ერთი განზომილება მრუდი დაბლა, ეს არის უნაგირის წერტილი.
ბრტყელი მდელოსი — რეგიონი სადაც გრადიენტი არის მახლობლად ნულ. ტრენინგი მკრთალი რადგან არ არის ფერდობი მოჰყვეთ.
მკაცრი წინააღმდეგ ბრტყელი მინიმა — მკაცრი მინიმა არის ვიწრო ხეობა. ბრტყელი მინიმა არის ფართო ხეობა. კვლევა გინიშვნებს რომ ბრტყელი მინიმა განზოგადებს უკეთ უჩანს მონაცემი, რადგან მცირე აშლილობა პარამეტრი (საშინ თხელი ხმა) არ ჯეკ შეცვლა დანაკარგი.
SGD მომენტთან ერთად ეხმარება წასლან უნაგირის წერტილი & მკაცრი მინიმა. რაიმე გაწვრობის ქვე ბრტყელი გრადიენტული დაღმართი მოქმედებს მსგავსი სხეული შემოშორებიან ზედაპირზე — ეს ცემის გარეთ ვიწრო ხაფანგი & პოულობს უფრო ფართო, ბრტყელი ხეობა.
SGD წინააღმდეგ სრული-პარტია გრადიენტული დაღმართი
ეს არის ერთ-ერთი ყველაზე მნიშვნელოვანი პრაქტიკული შემჩნევა მანქანათა სწავლების ტრენინგი.
სიტყვა, როგორც ვექტორი — სემანტიკური არითმეტიკა
მნიშვნელობა აქვს მიმართულება
Word2Vec, GloVe, & თანამედროვე transformer ჩასმა რუკა დისკრეტული ტოკენი (სიტყვა, ქვე-სიტყვა) უწყვეტი ვექტორი სივრცე. შედეგი არის გეომეტრიული სამყარო სადაც მნიშვნელობა აქვს კოორდინატი.
მოთხოვნილი მაგალითი: მეფე - კაცი + ქალი ≈ დედოფალი
ეს არის ვექტორი არითმეტიკა. ვექტორი საწინააღმდეგო 'კაცი' რომ 'მეფე' წარმოადგენს კონცეფცია 'სამეფო გამოიყენება კაცი.' ვექტორი საწინააღმდეგო 'ქალი' რომ 'დედოფალი' წარმოადგენს 'სამეფო გამოიყენება ქალი.' ეს ვექტორი არის მიახლოებითი პარალელი — იგივე მიმართულება, იგივე ურთიერთობა, განსხვავებული საწყისი წერტილი.
სხვა გეომეტრიული ურთიერთობა რომელი გაჩნდა ტრენინგ ტექსტზე:
- პარიზი - საფრანგეთი + იტალია ≈ რომი (დედაქალაქი-ზე ურთიერთობა)
- დაიარა - გაიარა + იცხოვროს ≈ იცხოვროს (წარსული დროის ტრანსფორმაცია)
- უფრო დიდი - დიდი + მცირე ≈ უფრო პატარა (შედარებითი ფორმა)
არავის პროგრამირებული ეს ურთიერთობა. მოდელი აღმოაჩინა მნიშვნელობა აქვს გეომეტრიული სტრუქტურა ნიჩი გაკითხვა მილიარდი სიტყვა. მიმართულება ჩასმის სივრცე შეესაბამება სემანტიკური ურთიერთობა. ეს არის ერთ-ერთი ყველაზე პროფუნდი გეომეტრიული აღმოჩენა მანქანათა სწავლებაში.
მრავალმნიშვნელოვანი ჰიპოთეზა
მაღალ-განზომილებიანი მონაცემი ცხოვრობს დაბალ-განზომილებიანი ზედაპირ
64×64 წაბლის სახე სურათი აქვს 4,096 პიქსელი ღირებულება — ეს არის წერტილი 4,096-განზომილებიან სივრცე. მაგრამ არა ყველა წერტილი ამ სივრცეში არის ვალიდური სახე. ყველაზე შემთხვევითი 4,096-განზომილებიანი ვექტორი ეძებს სტატიკური ხმა, არა სახე.
მრავალმნიშვნელოვანი ჰიპოთეზა აყვამს რომ რეალური სამყარო, მაღალ-განზომილებიანი მონაცემი ზღვრიქვეს ან ახლოს დაბალ-განზომილებიანი მრუდი ზედაპირი (მრავალმნიშვნელოვანი) დაბლებული მაღალ-განზომილებიანი სივრცე. მრავალმნიშვნელოვანი სახე შეიძლება რომ იყოს მხოლოდ 50-განზომილებიანი — პარამეტრი მიერ ფაქტორი, როგორც განათება კუთხე, მართალი კურდი, გამოხატვა, კანის ტონი, ასი.
ეს არის გეომეტრიული მოთხოვნილება პრაქტიკული შედეგი:
- განზომილობა შემცირება (PCA, t-SNE, UMAP) სამუშაოები რადგან მონაცემი არის მიახლოებითი დაბალ-განზომილებიანი. ეს ალგორითმი იპოვოს მრავალმნიშვნელოვანი & პროექტი ზე.
- Autoencoders ისწავლოთ 压缩 მონაცემი დაბალ-განზომილებიანი ნიჭ სივრცე (მრავალმნიშვნელოვანი) & აღდგენა მასში.
- განახალისებ მოდელი (VAEs, ფასლება მოდელი) ისწავლოთ მრავალმნიშვნელოვანი & ნიმუში ახალი წერტილი ზე ეს — განახალისებ ახალი სახე, ახალი მუსიკა, ახალი ტექსტი რომელი ეძებს რეალური რადგან ეს დაძინებული ნაწილი მრავალმნიშვნელოვანი.
როდესაც თქვენი მოდელი ვერ აკმაყოფილებს, ერთი გეომეტრიული ახსნა არის: ეს ისწავლა უცხო მრავალმნიშვნელოვანი. სწავლების მონაცემი ბილეთი გამოა ზედაპირი რომელი არ ემთხვევა ჭეშმარიტი მონაცემი განაწილება.
ვექტორი ანალოგია
გეომეტრიული სტრუქტურა ჩასმის სივრცე არის ერთ-ერთი ყველაზე 놀라운 შედეგი თანამედროვე მანქანათა სწავლებაში.
ROC მრუდი — კლასიფიკაციის ხარისხი, როგორც ფართი
შეფასების მეტრიკა ცხოვრობენ გეომეტრიული სივრცე
ROC (მიმღები ოპერაციული მახასიათებელი) მრუდი ღირებულება სიმართის პოზიტიური მაჩვენებელი (y-ღერძი) წინააღმდეგ მცდარი პოზიტიური მაჩვენებელი (x-ღერძი) რომელ თქვენ წაბლის კლასიფიკაციის ბარი საწინააღმდეგო 0 რომ 1.
ეს არის გეომეტრიული სივრცე მნიშვნელოვანი ქვესახელი:
- (0, 1) — ზედა-მარცხნივ კუთხე — იდეალური კლასიფიკაცია. ყველა პოზიტიური აღმოვლენილი, ნულ მცდარი აგებ.
- (0, 0) — ქვედა-მარცხნივ — მოდელი კლასიფიკაცია ყველა რომ უარყოფითი.
- (1, 1) — ზედა-მარჯნივ — მოდელი კლასიფიკაცია ყველა რომ დადებითი.
- დიაგონალი საწინააღმდეგო (0,0) რომ (1,1) — შემთხვევითი კლასიფიკატორი. ყველა ბარი, აქვს თანაბარი სიმართის პოზიტიური & მცდარი პოზიტიური შემთხვევა.
AUC (ფართი ქვეშ მრუდი) არის სიტყვაბრივი გეომეტრიული ფართი გაზომვა. AUC = 0.5 ნიშნავს მოდელი შემთხვევითი (ფართი ქვეშ დიაგონალი). AUC = 1.0 ნიშნავს იდეალური კლასიფიკაცია (მთელი ერთეული კვადრატი). კარგი მოდელი ROC მრუდი რკალი მიმართ ზედა-მარცხნივ კუთხე, ამარათი უფრო ფართი.
AUC აქვს ლამაზი ალბათური ინტერპრეტაცია: იგი თანაბარი ალბათობა რომელი მოდელი რეიტინგი შემთხვევითი დადებითი მაგალითი უფრო მაღლა ვიდრე შემთხვევითი უარყოფითი მაგალითი. მაგრამ გეომეტრიულად, იგი მხოლოდ ფართი — & რომელი გეომეტრიული სიმარტე რა ხდის ეს ინტუიციური.
სიზუსტე-გახსენება სივრცე
განსხვავებული გეომეტრიული სამაჭე
სიზუსტე-გახსენება მრუდი ცხოვრობენ განსხვავებული გეომეტრიული სივრცე ვიდრე ROC მრუდი, & ისინი მოუბრძანებთ განსხვავებული სიუჟე.
სიზუსტე = საბარი ყველა რომელი მოდელი დროშა დადებითი, რა წილი იყო ფაქტობრივი დადებითი?
გახსენება = ყველა რეალური დადებითი, რა წილი აკეთებს მოდელი იპოვოთ?
რომელ თქვენ დაბლა კლასიფიკაციის ბარი (დროშა უფრო ჩვენება რომ დადებითი), გახსენება იზრდება (თქვენ დაჭერა უფრო ნამდვილი დადებითი) მაგრამ სიზუსტე ტიპიურად შემცირდება (თქვენ ასევე დაჭერა უფრო მცდარი დადებითი). ეს სამაჭე ბილე მრუდი სიზუსტე-გახსენება სივრცე.
F1 ჩვენ = 2 × (სიზუსტე × გახსენება) / (სიზუსტე + გახსენება) — ჰარმონიული საშუალო. გეომეტრიულად, F1 ჩვენ თანაბარი წერტილი სიზუსტე-გახსენება მრუდი სადაც სიზუსტე თანაბარი გახსენება. იგი სადაც მრუდი გადაკვეთა დიაგონალი სიზუსტე-გახსენება კვადრატი.
საშუალო სიზუსტე (AP) = ფართი ქვეშ სიზუსტე-გახსენება მრუდი. მსგავსი AUC-ROC, ის შეჯამებული მთელი მრუდი რომ ერთი რიცხვი რომელი წარმოადგენს გეომეტრიული ფართი.
ROC მრუდი & სიზუსტე-გახსენება მრუდი არის დამატებითი გეომეტრიული ხედვა იგივე მოდელი. ROC მრუდი შეიძლება იყოს დამაბნეველი ოპტიმისტი დაუბალანსო მონაცემი (99% უარყოფითი კლასი). სიზუსტე-გახსენება მრუდი დარჩა ინფორმაციული რადგან ისინი კენჭი დადებითი კლასი.
AUC-ROC ინტერპრეტაცია
გაგება რა AUC-ROC ზომა გეომეტრიულად ეხმარება თქვენ აირჩიოთ მოდელი.
Transformers — წერტილოვანი პროდუქტი როგორც ყურადღება
ყურადღება არის გეომეტრიული მსგავსება ზომა
transformer არქიტექტურა — ფუძე თანამედროვე ენა მოდელი — აგებული გეომეტრიული ოპერაცია: წერტილოვანი პროდუქტი.
თითოეული ტოკენი თანმიმდევრობა, transformer გამოთვალა სამი ვექტორი: შეკითხვა (Q), გასაღები (K), & ღირებულება (V), თითოეული მიღებული მულტიპლიკაციის შეყვანის ჩასმის წიაფი წონა მატრიცა.
ყურადღება რეიტინგი რიცხვი ორი ტოკენი არის: ქვენ = Q · K^T / √d
ეს არის მასშტაბი წერტილოვანი პროდუქტი — გეომეტრიული მსგავსება ზომა. როდესაც Q & K მიუთითებს იგივე მიმართულება (პატარა კუთხე მათ შორის), წერტილოვანი პროდუქტი დიდი: ეს გასაღები არის სიმაღლე რელევანტი რომ ეს კითხვა. როდესაც ისინი პერპენდიკულარული, წერტილოვანი პროდუქტი ნული: უკავშირო.
რეიტინგი გაიარა softmax რომ შექმნა ალბათობა განაწილება: ყურადღება წონა რომელი თანხა რომ 1. გამოთიბი არის შეწონილი თანხა ღირებულება ვექტორი, სადაც წონა თანხა აღებული გეომეტრიული შეთანხმება.
თანმიმდევრობა მსგავსი 'კატი დაჯდა ზე მუქი რადგან ეს იყო დაღლილი,' ყურადღება გამოთვალო: რომელი სხვა სიტყვა აქვთ ყველაზე გეომეტრიული შეთანხმება? თუ Q ვექტორი 'ეს' შეთანხმება ყველაზე ამჟამად K ვექტორი 'კატი,' მოდელი ყურადღება 'კატი' — გადაჭრა საღარი მითითება გეომეტრია.
მრავლად-მხარე ყურადღება — მრავალი გეომეტრიული პერსპექტივა
რატომ მრავალი მხარე?
ხელი-ყურადღება ერთი კომპლექტი Q, K, V მატრიცა გამოთვালო ერთი ხელი გეომეტრიული შეთანხმება. მაგრამ ენა აქვს ბევრი ხელი ურთიერთობა — სინტაქსური, სემანტიკური, პოზიციური, საცნობარო.
მრავლად-მხარე ყურადღება ვის მრავალი კომპლექტი Q, K, V პროექტის მატრიცა, თითოეული პროექტში განსხვავებული უბნის ჩასმის. თითოეული მხარე ზომა შეთანხმება თავისი საკუთარი გეომეტრიული უბნის.
რა მკვლელებმა დაკვირვება როდესაც მათ ინსპექტირება ყურადღება მხარე:
- მხარე 1 შეიძლიოთ ყურადღება წინა სიტყვა (პოზიციური სიახლოვე)
- მხარე 2 შეიძლიოთ ყურადღება შემთხვევა საგან (სინტაქსური დამოკიდებულება)
- მხარე 3 შეიძლიოთ ყურადღება სემანტიკურ დაკავშირებული სიტყვა ადრე კონტექსტი
- მხარე 4 შეიძლიოთ ყურადღება ყველაზე ბოლო არსებითი სახელი (კოეფიციენტი)
თითოეული მხარე არის განსხვავებული გეომეტრიული ლინზა იგივე მონაცემი. პროექტი ბრუნ & მასშტაბი ჩასმის სივრცე განსხვავებული, დაკეტა განსხვავებული ურთიერთობა ხილული გეომეტრია შეთანხმება.
ეს რატომ transformers გამოდგენა მოდელი ერთი ყურადღება მექანიზმი. ერთი წერტილოვანი პროდუქტი სრული ჩასმის სივრცე იჭერი ერთი ნოტი მსგავსება. მრავალი წერტილოვანი პროდუქტი განსხვავებული უბნის იჭერი მრავალი, დამატებითი ნოტი ერთად.
მრავლად-მხარე ყურადღება
მრავლად-მხარე ყურადღება არის ერთ-ერთი გასაღები არქიტექტურული ინოვაცია transformer.
მანქანათა სწავლება არის გამოიყენება გეომეტრია
ერთიანი ძაფი
კადრი რა ჩვენ დაფარული. ყველა მთავარი კონცეფცია მანქანათა სწავლება აქვს გეომეტრიული მდე:
მონაცემი = წერტილი მაღალ-განზომილებიანი სივრცე
მახასიათებელი = განზომილება აი სივრცე
მსგავსება = მანძილი ან კუთხე რიცხვი წერტილი
კლასიფიკაცია = აღმოჩენა გეომეტრიული საზღვრები კლასი
ტრენინგი = ნავიგაცია დანაკარგების ზედაპირი მიერ მოჰყვეთ გრადიენტი
ჩასმა = ისწავლა კოორდინატი სისტემი სადაც გეომეტრია კოდი მნიშვნელობა
შეფასება = ფართი ქვეშ მრუდი მეტრიკა სივრცე
ყურადღება = წერტილოვანი პროდუქტი ზომა კუთხე შეთანხმება
ეს არ არის დაშემთხვევა. მანქანათა სწავლება მემკვიდრეა მათემატიკური ჩარჩო სწორი ალგებრა & დიფერენციალი გეომეტრია — ველი რომელი ფუნდამენტურად თუ სივრცე, ფორმა, & ტრანსფორმაცია.
გაგება გეომეტრია გაძლევთ მხოლოდ დამიზნება ალგორითმი არ: ინტუიცია. როდესაც თქვენი მოდელი ვერ აკმაყოფილებს, გეომეტრიული ხედვა გვთავაზობს სადაც გამშვები. არიან კლასი გამყოფი? სხვობა საზღვარი. არის ტრენინგი რეპო? ამოწმებთ დანაკარგების ზედაპირი. არიან ჩასმა ღარი? რეგიონი რამ მსგავსი ელემენტი გეომეტრიულად ახლოს. არის ყურადღება ფართო? ინსპექტირება უბნის პროექტი.
გეომეტრია იგივე მხოლოდ 3 განზომილება ან 3 მილიარდი. მათემატიკა მასშტაბი. ინტუიცია ტრანსფერი. ეს რატომ გეომეტრია ყოფილი უნივერსალური ენა მანქანათა სწავლება.
გეომეტრიული თხელი
ჩვენ დაფარული ვექტორი, მანძილი, საზღვრები, ტრენინგი/დანაკარგების ზედაპირი, ჩასმა, შეფასება/ROC, & ყურადღება — ყველა მხეთ გეომეტრია.