un — PAC სწავლების გეომეტრია

un

სტუმარი

1 / ?

PAC ორ-ღერძიანი სიბრტყის სახით

ორი ღერძი, ერთი ნიმუშ-რაოდენობის ზედაპირი

დაადეთ ε ჰორიზონტალურ ღერძზე (შეცდომის ტოლერანტობა, დიაპაზონი 0 დან 1 მდე). დაადეთ δ ვერტიკალურ ღერძზე (მარცხენა ალბათობა, დიაპაზონი 0 დან 1 მდე). ამ ერთეული კვადრატის თითოეული წერტილი შეესაბამება (ε, δ) მოთხოვნის წყვილს.

PAC ε δ ბიუჯეტის სიბრტყე

თითოეული წერტილის ზემოთ იჯდა ნიმუშ-რაოდენობის მნიშვნელობა m(ε, δ) = (1/ε)(ln|H| + ln(1/δ)). ერთად, ეს m მნიშვნელობები კვალს უსვამს მრუდე ზედაპირს ჩვენი კვადრატის ზემოთ. უფრო მკაცრი მოთხოვნები (უფრო ნაკლები ε, უფრო ნაკლები δ) აწიეთ ჩვენი ზედაპირი მაღლა; უფრო ფხვილი მოთხოვნები გაუბრტყელოთ იგი.

იზო-ნიმუშ კონტურის ხაზები

პროექციეთ ჩვენი ზედაპირი სიბრტყეზე იზო-m კონტურებად. თითოეული (ε, δ) წყვილი ერთ კონტურზე მოითხოვს ჩვენი იგივე ნიმუშის ბიუჯეტი. გადაადგილდით კონტურის გასწვრივ ხელმისაწვდომი ტოლერანტობისთვის ვაჭრობის მიზნით ფიქსირებულ ღირებულებით.

ღერძის ნახევრად გაყოფა

ε-ის ნახევრად გაყოფა ჰორიზონტალურზე m-ს აწიეთ ფაქტორით 2 (1/ε-ში წრფივი). δ-ის ნახევრად გაყოფა ვერტიკალურზე m-ს აწიეთ ln(2) ≈ 0.69 (ln(1/δ)-ში ლოგარითმული). გეომეტრია გვეუბნება: შეცდომის ტოლერანტობა ატარებს უფრო ციცაბო ღირებულებას, ვიდრე ნდობა.

ბიუჯეტის ზედაპირის კითხვა

ჩვენ ვიჯდებით წერტილზე (ε = 0.05, δ = 0.05) ჰიპოთეზის კლასისთვის |H| = 10⁶. ნიმუშის მოთხოვნა m₀ = (1/0.05)(ln(10⁶) + ln(20)) = 20 × (13.8 + 3.0) = 336.

(a) გამოთვალეთ ახალი ნიმუშის მოთხოვნა m₁ წერტილზე (ε = 0.025, δ = 0.05) — ნახევრად შეცდომა, იგივე ნდობა. (b) გამოთვალეთ m₂ წერტილზე (ε = 0.05, δ = 0.025) — იგივე შეცდომა, ნახევრად მარცხენა-ალბათობა. (c) რომელი ღერძი ატარებს უფრო ციცაბო ნიმუშის ღირებულებას, & რა თანაფარდობით?

დიქოტომიები წერტილების ღრუბელზე

რა გამოიყურება დაშლა

დაადეთ n წერტილი ჩვენი სიბრტყეში. აირჩიეთ ჰიპოთეზის კლასი (წრფივი კლასიფიკატორი = სწორი ხაზი). დათვალეთ რამდენი განსხვავებული გზით შეუძლია ამ კლასს შეაფასოს ეს n წერტილი (+/− ხაზის ორივე მხარეს). გამოიძახეთ ეს რაოდენობა Π_H(n).

VC დაშლა სამი წერტილი

თუ Π_H(n) = 2ⁿ, ჩვენი კლასი ანგრევს ამ წერტილის ნაკრები — ის შეუძლია წარმოქმნას ყველა შესაძლო აფასურება. თუ Π_H(n) < 2ⁿ, ზოგიერთი აფასურება არ შეიძლება მოხდეს.

სამი წერტილი საერთო პოზიციაში

წრფივი კლასიფიკატორი ℝ²-ში ანგრევს ნებისმიერი 3 არაკოლინეარული წერტილი. 2³ = 8 აფასურება; ყველა 8 მიღებულია რომელიმე ხაზით. აირჩიეთ ნებისმიერი 3 წერტილი; თითოეული ±/± აფასურებისთვის დახაზეთ ხაზი, რომელიც ასევე დადებითი უარყოფითი მხარეს გამოყოფს.

ოთხი წერტილი უარყოფს დაშლას

დაადეთ 4 წერტილი კვადრატის კუთხეებზე. სცადეთ დიაგონალის წყვილი დადებითი & ანტი-დიაგონალის წყვილი უარყოფითი (XOR აფასურება) დასახელება. არა სწორი ხაზი ცალასხვაა მათ. თუ Π_H(4) ≤ 14 < 16 = 2⁴.

VC განზომილება როგორც მაქსიმალური დაშლის ზომა

VC(წრფივი ℝ²) = 3. ჩვენ შეუძლია ანგრევს 3 წერტილი; ჩვენ არ შეუძლია ანგრევს 4. VC დათვალებ მაქსიმალური დიქოტომიის სიმძლავრე ჩვენი ჰიპოთეზის კლასი.

გეომეტრიული ინტუიცია

უფრო მაღალი VC = ჩვენი კლასი აღმოთქვამს უფრო დახვეწილ გადაწყვეტილების საზღვრებს. წრფივი (VC = d+1 d განზომილებაში) აღმოთქვამს ჰიპერპლანები. პოლინომიალები აღმოთქვამს მრუდეები. ნეირონული ქსელები აღმოთქვამს ძალიან დაკეცილი მრავალფეროვნებები. მეტი დაკეცვა = მეტი დიქოტომია = უფრო მაღალი VC = უფრო მაღალი ნიმუშის მოთხოვნა.

დიქოტომიების დათვლა

განიხილეთ წრფივი კლასიფიკატორი ℝ²-ში (ხაზი). ჩვენ გვაქვს 5 წერტილი განთავსებული საერთო პოზიციაში (არა 3 კოლინეარული, არცერთი ზედმეტი).

(a) გამოთვალეთ 2⁵ = ყველა შესაძლო ±/± აფასურება რიცხვი. (b) Sauer-Shelah ლემა ზღვრ Π_H(n) ≤ Σ_{i=0}^{d} C(n, i) სადაც d = VC(H). გამოიყენეთ ეს d = 3, n = 5 თან: გამოთვალეთ C(5,0) + C(5,1) + C(5,2) + C(5,3). (c) ხაზო რა ფაქტორით დაეცემა რეწ რეესრა დაშლაზე.

ალბათობის მასა ჰიპოთეზის მრავალფეროვნება

PAC-Bayes სურათი

სურათი ჩვენი ჰიპოთეზის სივრცე მაღალი-განზომილებიანი მრავალფეროვნება როგორც. თითოეული წერტილი ამ მრავალფეროვნება კორესპონდენტი ერთი წონა კონფიგურაციო ნეირონული ქსელი. Prior P დანიშვება ალბათობა განაწილება ზე ჩვენი მრავალფეროვნება. Posterior Q კონცენტრირებული ალბათობა მასა აქ ტრენირება მონაცემი წაბიჯებული ჩვენი წონა.

PAC Bayes უკანა დან ჰიპოთეზის სივრცე

KL განსხვავება როგორც გეომეტრიული მანძილი

KL(Q‖P) ზომა რამდენი ადალე Q წაბიჯებული დან P. გეომეტრიული კითხვა: რამდენი ჩვენი უკანა ღრუბელი შემოდგომა დან prior ღრუბელი, აბ აღნიშნული რამდენი unlikely თითოეული უკანა რეგიონი იყო დან our prior.

პატარა KL = Q თხელი P მძიმე. უკანა თითქმის არ შემოდგომა. გამომწვევი ხარვეზი რჩება პატარა.

დიდი KL = Q კონცენტრირებული რეგიონი P გამოყოფილი მცირე მასა რა. უკანა შემოდგომა ბევრი. გამომწვევი ხარვეზი იზრდება.

თუ რატომ ეს გეომეტრია მნიშვნელოვანი

სურათი SGD როგორც ძებნა პროვოკაციო ჩვენი ჰიპოთეზის მრავალფეროვნება. პროვოკაციო დამთავრდა წაბიჯებული დაბლა-ტრენირება რუხი. PAC-Bayes ითხოვს: რამდენი ვიდე ეს რუხი?

ვიდე რუხი = მრავალი მიმდებარე წონა კონფიგურაციო მე აკეთებ დაბლა ტრენირება ზარალი თუ. უკანა Q შეუძლია გაშლა მას ზე ვიდე რეგიონი & მაინც აქვს დაბლა რუხი. KL(Q‖P) რჩება კომპენსირებული. გამომწვევი ხარვეზი პატარა.

ვიწრო რუხი = მხოლოდ თხელი კომპლექტი წონა აკეთებ დაბლა კარგად. უკანა აუცილებელი კონცენტრირებული მწვავე. KL იზრდება. გამომწვევი ხარვეზი განიერდება.

ეს კავშირი პირდაპირი რა-ლავ-მწვავე მინიმა დისკურსი (Hochreiter & Schmidhuber 1997, Keskar და ა.შ 2017). ბრტყელი მინიმა გამომწვევი ჯობე რადგან ისინი მხარდაჭერა განიერი უკანა თান მცირე KL.

ბასინის სიგანე კითხვა

ორი სწავლით მოდელი მიაღწია იდენტიკური ტრენირება ზარალი მაგრამ ცხოვრებაზე განსხვავებული ბასინი:

- მოდელი A: ბრტყელი ბასინი, უკანა გაშლა მას ზე რეგიონი თან KL(Q_A‖P) = 50 nats.

- მოდელი B: მწვავე ბასინი, უკანა კონცენტრირებული თან KL(Q_B‖P) = 500 nats.

ორივე სწავლით ზე n = 10,000 მაგალითი თან ემპირიული რუხი 0.05, δ = 0.05.

გამოთვალეთ PAC-Bayes გამომწვევი ხარვეზი √[(KL + ln(2√n/δ)) / 2n] თითოეული მოდელი. შემდეგ ხაზი რომელი გამომწვევი უკეთ & მიეცით გეომეტრიული მიზეზი.

მრუდე რომელი ეცემა სადაც თეორია წინასწარმეტყველი აზეთი

კლასიკური U-მრუდე

პლოტი მოდელი ღირებულება ზე ჰორიზონტალური ღერძი. პლოტი ტესტი რუხი ზე ვერტიკალური. კლასიკური ღირებულება-განსხვავება თეორია წინასწარმეტყველი:

- დაბლა ღირებულება: მაღალი მიკერძოება, მაღალი ტესტი რუხი (underfit)

- შუაღამე ღირებულება: დაბლა მიკერძოება + დაბლა განსხვავება, დაბლა ტესტი რუხი (ჯეკი სკოპი)

- მაღალი ღირებულება: დაბლა მიკერძოება, მაღალი განსხვავება, მაღალი ტესტი რუხი (overfit)

შედეგი: U-აკვილი მრუდე. აირჩიეთ ღირებულება ღირებულებაზე ჩვენი ფსკერი.

ორმაგი ჩასვლა მრუდე

რა Belkin და ა.შ (2019) დაკვირვება

მიერ ინტერპოლაციო ზღვარი (ღირებულება აქ მოდელი ზუსტი მერე ტრენირება მონაცემი თან ნულოვანი შეცდომა), ტესტი რუხი მკრთალო ხელმისაწვდომი. მრუდე წაკითხული: ჩასვლა → წვერი თან ინტერპოლაციო → მეორე ჩასვლა. ორი ჩასვლა, ერთი მრუდე.

გეომეტრიული კითხვა მეორე ჩასვლა

თან ინტერპოლაციო ზღვარი, მოდელი აქვს კი საკმარისი ღირებულება რა მაქ ტრენირება მონაცემი — მხოლოდ ერთი (ან ოდნე) ინტერპოლაციო გადაწყვეტა არსებული & ისინი ტენდენცია რა იყოს jagged. გამომწვევი ვარდნა რადგან გადაწყვეტა არჩეული გამოყოფილი.

მიერ ინტერპოლაციო ზღვარი, ბევრი ინტერპოლაციო გადაწყვეტა არსებული. SGD აქვს თავისუფლება აირჩიეთ გლუვი ერთი (მინიმალური-norm, დაბლა-curvature). გეომეტრიული სურათი: გადაწყვეტა მრავალფეროვნება რა ხდის განიერი & ბრტყელი. SGD's ნახევარი რეგულარიზაციო აირჩიეთ ბენინი გადაწყვეტა რა ეს ბრტყელი მრავალფეროვნება. ტესტი რუხი ეცემა.

თუ რატომ კლასიკური თეორია აკლიდ ეს

VC განზომილება რაოდენობა გადაწყვეტა-კომპლექტი ღირებულება მაგრამ უგულებელყოს რომელი გადაწყვეტა ხდება არჩეული. კლასიკური განკარგვა ვარაუდი სიარული-შემთხვევა ემპირიული რუხი მინიმიზაციო. რეალობა: SGD აკეთებს აირჩიეთ ჩვენი ბრტყელი, გლუვი ინტერპოლაციო გადაწყვეტა. ერთხელ ჩვენ ითხოვა SOLVER-CHOSEN გადაწყვეტა თუ ადგილ ყველა გადაწყვეტა, მეორე ჩასვლა აკეთებს აზრი.

გეომეტრიული წაკითხული-სახლი

ღირებულება მნიშვნელოვანი ნაკლებ ვიდრე ბასინი გეომეტრია. განიერი ბრტყელი ბასინი (ღირებულება-ინტერპოლაციო) გამომწვევი უკეთ ვიდრე ვიწრო მწვავე ერთი (ზე ინტერპოლაციო). ტყეს თეორია ცდილი რა ღირებულება გამომწვევი თან ბასინი სიგანე, არა თან პარამეტრი ხელი.

ორი ჩასვლა ეძებნა

ზე ორმაგი ჩასვლა მრუდე, სამი რეგიონი მნიშვნელოვანი: (1) დაბა-parameterized regime, (2) ინტერპოლაციო წვერი, (3) მაღال-parameterized regime.

აღწერი გეომეტრიულად რა ხდის რა (a) გადაწყვეტა მრავალფეროვნება's სიგანე, (b) ბასინი curvature თან არჩეული მინიმალური, & (c) ნახევარი რეგულარიზაციო's როლი თითოეულ სამი რეგიონი. ხაზი რომელი რეგიონი ტყეს ტრენირება (მაგ ი GPT-კლასი მოდელი) ოპერაციო რა & თუ რატომ კლასიკური PAC ვერ წინასწარმეტყველი მისი წარმატება.

ხელმძღვანელი-კანონი ზედაპირი ღირებულება-ტოკენი სივრცე

ა 3D ზედაპირი

პლოტი პარამეტრი N ზე ერთი ჰორიზონტალური ღერძი. პლოტი ტოკენი D ზე ა მეორე ჰორიზონტალური ღერძი. პლოტი ზარალი L ზე ვერტიკალური. ემპირიული ზარალი খაზი ა ხელმძღვანელი-კანონი ზედაპირი ჩვენი (N, D) სიბრტყე:

L(N, D) ≈ (Nc/N)^αN + (Dc/D)^αD + L∞

გამოთვლა ოპტიმალური ტრენირება ზედაპირი

ზედაპირი ჭრა დაბლა რომელ N ან D იზრდება. ჭრა დაიცვა ჟურნალი-წრფივი ხელმძღვანელი კანონი (სწორი ხაზი რა ჟურნალი-ჟურნალი ნაკვეთი). asymptote L∞ რჩება პოზიტიური — irreducible ზარალი ჩვენი მოდელი არ შეუძლია შემცირება მიერ.

გამოთვლა-ოპტიმალური ridge

ფიქსი ჯამი გამოთვლა budget C ∝ N × D (პარამეტრი × ტოკენი, უხეშად). ბილ ჩვენი ზედაპირი გასწვრივ ეს შეზღუდვა. ბილ კვალი რუხი 2D მრუდე მად 3D ზედაპირი. ფსკერი ეს მრუდე = გამოთვლა-ოპტიმალური წერტილი.

chinchilla (Hoffmann და ა.შ 2022) გამოთვლილი ეს ფსკერი analytically: D_opt ≈ 20 × N. მრუდე გასწვრივ გამოთვლა budget = ა ridge. მუქ ანა ridge: ტოლი გამოთვლა, შემცირება ზარალი. მუქ off ridge (მეტი პარამეტრი ვიდრე 20× ტოკენი, ან ნაკლები): wasted გამოთვლა.

გეომეტრიული კითხვა GPT-3 წ chinchilla

GPT-3: 175B params, 300B ტოკენი. chinchilla-ოპტიმალური მოუთხოვოდა 175B × 20 = 3500B ტოკენი. GPT-3 სხედა შორს off გამოთვლა-ოპტიმალური ridge რა ჩვენი პარამეტრი-heavydirection. chinchilla თვალი: 70B params ტრენირება ზე 1400B ტოკენი. 1400 / 70 = 20 — ზუსტად ზე ridge. chinchilla დაარტყმული GPT-3 თან ნაკლები ვიდრე ნახევარი მისი პარამეტრი რაოდენობა თან სხედა თან გეომეტრიული optimum.

მონაცემი სიმინდი როგორც ვერტიკალური თვითმფრინავი

საჯაროვანი ვებ ~10¹³ usable ტოკენი. ეს ნაკვეთი როგორც ა ვერტიკალური კედელი თან D = 10¹³ ზე ჩვენი პარამეტრი-ტოკენი სიბრტყე. მეტი ეს კედელი, გამოთვლა-ოპტიმალური ტრენირება მოითხოვს N ≤ D / 20 = 5 × 10¹¹ params. კედელი ზე N = 5 × 10¹¹ ან გაშვება დაბა-ტრენირება (off-ridge) ან მოითხოვა სინთეტიკური / multimodal / RL მონაცემი გათხოვა კედელი გარე.

მუქი გამოთვლა-ოპტიმალური ridge

ჩვენ სხედა თან GPT-3 კოორდინატი: N = 175B params, D = 300B ტოკენი. გამოთვლა proxy C = N × D = 5.25 × 10²² param-ტოკენი.

(a) გამოთვლა chinchilla-ოპტიმალური (N*, D*) ჩვენი იგივე გამოთვლა budget თან გადაჭრა D* = 20 × N* თან N* × D* = 5.25 × 10²². (b) ხაზი თან რა ფაქტორი N* განსხვავებული რა GPT-3's 175B. (c) აღწერი გეომეტრიულად რა 'მუქი რა GPT-3's წერტილი ეხლა (N*, D*) გასწვრივ მუდმივი-გამოთვლა მრუდე' ხედი ზე პარამეტრი-ტოკენი ზედაპირი.

ბეტა უკანა შემჭიდროვდება შევიდა ა თამბი

ა ალბათობა სიმკვრივე ზე [0, 1]

ბეტა(α, β) არის ა ალბათობა სიმკვრივე მის ზე ერთეული მიმდებარე [0, 1]. ცვლადი: ε = ნამდვილი შეცდომა სიჩქარე. ფორმა: α კონტროლი მასა ზე მაღალი-ε მხარე; β კონტროლი მასა ზე დაბლა-ε მხარე.

ბეტა უკანა შემჭიდროვდება

ბეტა(1, 1): კი რომელი აკეთებ არა ინფორმაციო, ბრტყელი სიმკვრივე ჩვენი [0, 1].

ბეტა(α, β) თან α + β დიდი: კონცენტრირებული წვერი წელ α / (α + β).

სიგანე ბეტა წვერი შემცირდება როგორც 1/√(α+β). დამატება 100 დაკვირვება რა ჩვენი prior შემჭიდროვდება წვერი თან ფაქტორი √100 = 10. დამატება 10000 დაკვირვება შემჭიდროვდება თან √10000 = 100.

გეომეტრიული კითხვა ა აუდიტი გაშვება

დაიწყეთ: ბეტა(1, 1) = ბრტყელი მართკუთხედი ზე [0, 1]. მაქსიმალური uncertain რომ ε.

მას შემდეგ 200 queries თან 8 falsifications: ბეტა(9, 193). საშუალო = 9/202 ≈ 0.045. სიმკვრივე ეხლა ა მკრთალო hump ორიენტირი უახლოესი 0.045 თან მახასიათებელი სიგანე σ ≈ 0.014.

მას შემდეგ 2000 queries თან 80 falsifications: ბეტა(81, 1921). საშუალო მაინც ≈ 0.045, მაგრამ სიგანე σ ≈ 0.0046. hump სამი ჯერ მკრთალო.

მას შემდეგ 200,000 queries თან 8000 falsifications: ბეტა(8001, 192,001). საშუალო ≈ 0.040, სიგანე σ ≈ 0.0004. hump რა ხდის ა თამბი.

გეომეტრიული convergence რა ა წერტილი მასა

როგორც n → ∞, ბეტა უკანა ჩალა რა ა Dirac დელტა თან ნამდვილი ε. გეომეტრია: მართკუთხედი → განიერი hump → ვიწრო hump → თამბი → წერტილი. თითოეული query შემჭიდროვდება ჩვენი განაწილება თან 1/√n.

თუ რატომ ეს დაიჯერ თეორიული PAC საზღვრები

თეორიული PAC საზღვრები მიეცი ა ფიქსირებული ε ამოკითხვა based ზე ჰიპოთეზის კლასი ზომა. ბეტა უკანა მიეცი ა ფიქსირებული ε ამოკითხვა რომელი შემჭიდროვდება თან ყოველი დაკვირვება, calibrated ზემო თქვენი ნამდვილი-სამყარო განაწილება. თეორიული ღირებულება = ა გარანტია დაბ უარი-შემთხვევა გარემოცვა. ემპირიული აუდიტი = ა გაზომვა ა ნამდვილი რეალობა.

რამდენი queries რა ნახევრად credible მიმდებარე?

ჩვენ ეხლა სხედა თან ბეტა(9, 193) მას შემდეგ 200 queries: საშუალო ε ≈ 0.045, σ ≈ 0.014. ჩვენ მოუთხოვოდა რა ნახევრად credible-მიმდებარე სიგანე რა σ ≈ 0.007.

(a) რეკოლი σ მასშტაბი როგორც 1/√(α+β). რა ნახევრად σ, თან რა ფაქტორი აუცილებელი (α + β) იზრდება? (b) ეხლა α + β = 202. გამოთვალეთ მიზნე α + β. (c) გამოთვალეთ დამატებითი queries მოითხოვა (მივიჩნიოთ მუდმივი ~4% falsification სიჩქარე). (d) გეომეტრიულად აღწერი რა ნახევრად σ აკეთებ რა ფორმა ბეტა სიმკვრივე.