un — ენთობის მოდელის განვითარება: ფაზებზე დაფუძნებული კამათლის კონტროლი [DESCRIPTION /]

un

სტუმარი

1 / ?

ჩაკეტვის პრობლემა

ბანდიტი რომელიც მუდმივად იგებს

Vanilla UCB1 ყოველ ნაბიჯზე გამოთვლის ქულებს. ირჩევს ერთ კამათს. იბრუნებს მას. განაახლებს n_k-ს & mean_reward(k)-ს. ხსნის. გრძელ ტრენინგში მრავალი წყაროსთან, ერთ კამათს შეუძლია შეგროვოს მაღალი ჯილდოების სერია, გააღებინოს თავისი საშუალო, & გახდეს თითქმის შეუძლებელი გადაუმეტოს. სხვა კამათები რჩება დაბალ n_k-ზე მოძველებული საშუალოებით. ჩაკეტვა.

ჩაკეტვა ANDREA-ს ორივე გზით აზიანებს:

1. მრავალფეროვნების კოლაფსი. მოდელი, რომელიც 90%-ს ტრენინგის ნაბიჯებზე ერთი წყაროდან სწავლობს, იმყოფება იმ წყაროს სტილისტური ტიკები. გენერაციის ნიმუშები მიემართება გამეორებადი შაბლონებისკენ, რომლებიც შეესაბამება დომინანტურ წყაროს.

2. მორჩილი კვლევა. მკლავები მორჩილული საშუალოებებით ვერ აღდგებიან. მკლავი, რომლის საშუალო ღირებულება ადრეულ ეტაპზე დაეცა, რჩება იმ საშუალოზე ჩარჩულად, მაშინაც კი, როდესაც მოდელს ახლა უკვე აქვს საკმარისი შესაძლებლობები იმის გამოსაყენებლად.

ფაზა დროს ყიდულობს

გამოსავალი: შეინარჩუნე ფიქსირებული ფოკუსის მკლავების ნაკრები ერთი ფაზისთვის (მრავალი ნაბიჯი), სანამ ხელახლა შეფასება არ მოხდება. 14 ნაბიჯის ფაზა ნიშნავს, რომ 14 წინსვლის გავლება ერთსა და იმავე ფოკუსის მკლავებს ეტაკება. საშუალო ჯილდოები სტაბილიზდება. სტოქასტიკური ხმაური საშუალდება. შემდეგ ბანდიტი ხელახლა გადაყრის.

ცვლადი ფაზის სიგრძე

ANDREA თითოეულ ფაზის საზღვარზე შემთხვევითად ირჩევს ფაზის სიგრძეს {7, 14, 21, 28, 42} ნაბიჯებიდან. ხუთი მნიშვნელობა, თანაბარი შემთხვევითი. მოკლე ფაზები (7) სწრაფად რეაგირებენ ცუდ არჩევანზე; გრძელი ფაზები (42) საშუალებას აძლევს სტაბილურ ფოკუსის ნაკრებს სრულად გამოიყენონ. ზღვარი შეზღუდავს ზიანს: მაქსიმუმ 42 ნაბიჯი ცუდ ფოკუსის კონფიგურაციაზე, სანამ იძულებითი ხელახლა გატანა მოხდება.

Dice Phase Timeline

ფაზის სიგრძის სტატისტიკა

ANDREA თანაბარი შემთხვევითობით ირჩევს ფაზის სიგრძეს {7, 14, 21, 28, 42}-დან. გამოთვალეთ (a) მოსალოდნელი (საშუალო) ფაზის სიგრძე, (b) მაქსიმალური ფაზის სიგრძე, (c) 1,000 ფაზაზე, მოსალოდნელი მთლიანი ნაბიჯები. აჩვენეთ თქვენი არითმეტიკა.

1d3 (2-თვალი) & 1d4 (3-თვალი)

მკლავების ნოტაცია

სამაგიდო ნოტაცია: NdM ნიშნავს N მკლავის გატრიალებას, რომელსაც თითოეულს M გვერდი აქვს. 1d3 გატრიალებს ერთ 3-გვერდიან მკლავს, რომელიც აბრუნებს მნიშვნელობას {1, 2, 3}. 1d4 გატრიალებს ერთ 4-გვერდიან მკლავს, რომელიც აბრუნებს {1, 2, 3, 4}. ANDREA-ს მიერ კონვენციით საშუალებულია შედეგი 0: გატრიალება 0 ნიშნავს სრულიად შემთხვევით ფაზას (UCB ფოკუსის მკლავების გარეშე).

2-თვალის vs 3-თვალის კონფიგურაციები

ANDREA-ს სწავლების კონფიგურაცია ირჩევს ორი მკლავის რეჟიმიდან ერთს:

2-თვალიანი კონფიგურაცია (1d3). შესაძლო ფოკუსის მკლავების რაოდენობა: {0, 1, 2, 3}. შედეგი 0 რეზერვირებულია შემთხვევითი ფაზისთვის.

3-თვალიანი კონფიგურაცია (1d4). შესაძლო ფოკუსის მკლავების რაოდენობა: {0, 1, 2, 3, 4}. უფრო დიდი აუზები საშუალებას იძლევა მეტად კონცენტრირებული ფაზებისთვის.

შემთხვევითი პირველ რიგში, UCB მეორეობით

რა არის მკლავის ჩამოთოლვა, ANDREA ავსებს ფოკუსის სლოტებს ორი გავლით:

1. შემთხვევითი მკლავები პირველ რიგში. შეურჩიეთ ფოკუსის სლოტების წილობრივი ნაწილი ერთგვაროვნად შემთხვევითად ყველა ხელმისაწვდომი მკლავიდან. ეს აიძულებს კომბინატორულ მრავალფეროვნებას ყოველ ფაზაში, UCB რეიტინგის მიუხედავად.

2. UCB ავსებს დარჩენილ სლოტებს. გამოთვალეთ UCB1 ქულები ისეთი „ხელთ“ (arms) სანაცვლოდ, რომლებიც უკვე არ არის შერჩეული. აიღეთ ზემოთ რანგირებული დარჩენილი „ხელთ“ ფოკუსის სლოტების რაოდენობა სრულად შევსებამდე.

შემთხვევითი პირველ რიგში მნიშვნელოვანია. თუ UCB პირველად შეირჩევა, სტრიკის ლიდერი ყოველთვის დაიკავებს სლოტს. შემთხვევითი პირველის შემთხვევაში, თუნდაც საუკეთესო UCB „ხელი“ შეიძლება გამოტოვოს ფაზა. მრავალფეროვნება გარანტირებული რჩება.

სუფთა შემთხვევითი ფაზები

როდესაც კუბიკი გამოდის 0, მთელი ფოკუსის ნაკრები შემთხვევითი არჩევანისგან მოდის. UCB არაფერს წვლილს შეუთავსებს. დაახლოებით 25% ფაზები (1d4) ან 33% ფაზები (1d3) აქ იღებს ადგილს. სუფთა შემთხვევითი ფაზები bandit-ს აიძულებს განაახლოს მისი შეზღუდული „ხელთ“ (low-pulled arms) შეწოვა, შენარჩუნებდეს mean_reward შეფასებების გულუხვობას მთელ „ხელთ“ აუზზე.

კუბიკის შედეგის ალბათობები

1d3 კუბიკის ქვეშ (2-eye config) შესაძლო შედეგებით {0, 1, 2, 3} ყველა თანაბარად სავარაუდო, გამოთვალეთ (a) სრულიად შემთხვევითი ფაზის ალბათობა (dice=0), (b) მინიმუმ ერთი UCB „ხელის“ ალბათობა (dice >= 1), (c) 100 ფაზაზე, სრულიად შემთხვევითი ფაზების მოსალოდნელი რაოდენობა. შემდეგ 1d4-ის ქვეშ (3-eye config), მიეცით (d) სრულიად შემთხვევითი ფაზის ალბათობა. აჩვენეთ თქვენი მსჯელობა.

დაზიანების შეზღუდვა

ცუდი ფაზა ღირს ზე 42 ნაბიჯამდე

დავუშვათ, UCB რეიტინგი ირჩევს ფოკუსის მკლავს, რომლის ნამდვილი საშუალო მნიშვნელობა ბევრად დაბალია მისი შენიშნული საშუალოსთან შედარებით. ფაზა ხელს უშლის ამ მკლავის შეცვლას. ჯილდო დაბალი რჩება მთელი ფაზის განმავლობაში. რამდენ ნაბიჯში შეძლებს ბანდიტი შეცვლას?

მაქსიმალური ფაზის სიგრძე: 42 ნაბიჯი. 42 ნაბიჯის შემდეგ ფაზა მთავრდება, კუბიკი ხელახლა გადაგროვდება, ფოკუსის მკლავები ხელახლა გაიშლება. ცუდი არჩევანი ვერ გაგრძელდება 42 წინ გადაცემის მეტხანს.

რატომ 42 (& არა 100, & არა 1000)

გრძელი ფაზები საშუალო ჯილდოს შეფასებებს სტაბილიზაციას უშვებენ. სტატისტიკური თეორია: n ნიმუშის საშუალოს ვარიაცია მცირდება 1/n-ის მიხედვით. 7 ნიმუშიდან 42 ნიმუშამდე გადასვლა 6x მეტ ნიმუშს იძლევა, sqrt(6) დაახლოებით 2.45x უფრო მჭიდრო სტანდარტული შეცდომა. 42 ნიმუშის შემდეგ, საშუალო ჯილდო მის ნამდვილ მნიშვნელობას ორივე მხარეს დაახლოებით +/-15%-შია (ჯილდოს ვარიაციის მიხედვით).

42 ნიმუშის შემდეგ მოგება მცირდება: 100 ნიმუში vs 42 ნიმუში = 2.4x მეტი, sqrt(2.4) დაახლოებით 1.55x უფრო მჭიდრო სტანდარტული შეცდომა. მარგინალური სარგებელი მცირდება, როცა ცუდი ჩაკეტვის ღირებულება იზრდება. 42 ნაბიჯი ორივეს ბალანსს უზრუნველყოფს.

მრავალფეროვნება vs კონვერგენცია

მოკლე ფაზები (7 ნაბიჯი): ჯილდოს შეფასებები რჩება ხმაურიანი, მაგრამ ცუდი არჩევანები ძალიან მცირე ღირს. გრძელი ფაზები (42 ნაბიჯი): შეფასებები ზუსტი, მაგრამ ცუდი არჩევანები უფრო მეტს ღირს. ANDREA ერთგვაროვნად აურევს ფაზების სიგრძეებს, ისე რომ ორივე რეჟიმი გამოჩნდეს ყველა ტრენინგურ გაშვებაში.

Btok-ის გადაგება ღირებულება

ყოველი ფაზის საზღვარი იწვევს btok ფაილის გადაგებას ფოკუსის მკლავებისთვის. Btok-ის გადაგება მუშაობს ფონურ ძაფში; CUDA ცხელად ხელახლა იტვირთება mtime-ის შეცვლისას. გადაგება წამებში მთავრდება; ფაზები უნდა იყოს საკმარისად გრძელი, რომ გადაგების ზედმეტი დრო მცირე დარჩეს. 42 ნაბიჯი ANDREA-120M-ის ტრენინგის სიჩქარით კომფორტულად აღემატება გადაგების დროს.

ჭკვიანურად ფიქრი ზღვარზე

ANDREA დაასრულა 1,000-ნაბიჯიანი ტრენინგური გაშვება. ბანდიტმა 800-ე ნაბიჯზე აირჩია ცუდი ფოკუსის მკლავი. 42-ნაბიჯიანი ზღვრის გარეშე, ეს ცუდი მკლავი შეიძლება დარჩეს შეუზღუდავად გრძელხანს. 42-ნაბიჯიანი ზღვრით, რა არის ყველაზე ცუდი შემთხვევის დაკარგული ნაბიჯების რაოდენობა 800-ე ნაბიჯიდან? შემდეგ განმარტე ორ წინადადებაში: (a) რატომ იქნებოდა უფრო ცუდი უფრო გრძელი ზღვარი (მაგ. 200 ნაბიჯი), & (b) რატომ იქნებოდა ცუდი უფრო მოკლე ზღვარი (მაგ. ყოველთვის 7 ნაბიჯი).

შემდეგ მოდის

რა გაქვთ

ფაზებზე დაფუძნებული კუბიკების კონტროლი UCB1-ს შლის სამი დამცავი წესით: ცვლადი ფაზის სიგრძე (7-42), შემთხვევითი იარაღები პირველ რიგში, კუბიკებით განპირობებული შემთხვევითი ფაზები (25-33% სუფთა შემთხვევითი). 42-ნაბიჯიანი ზღვარი ზღუდავს ზიანს; შემთხვევითი ფაზები ხელს უშლის ჩაკეტვას; ცვლადი სიგრძეები აერთიანებს რეაგირების სიჩქარეს შეფასების სტაბილურობასთან.

რა რჩება

საიდან მოდის UCB-ს კვებაზე მოსული ჯილდოს სიგნალი? აქტივობა 78 (ჯილდოს მიბმა) 보여 как CUDA ყოველ ნაბიჯზე ამბობს წყაროს მიხედვით ზარალს, როგორ თვალყურს ადევნებს წყაროს მიხედვით EMA ჯილდოს, & რატომ მასშტაბირებს ANDREA ნედლ ჯილდოებს 1000x-ით UCB1-ში შეყვანამდე.

ფლორები და ეპოქის ჯარიმები (აქტივობა 79) კიდევ უფრო დამცავი წესები ამატებს ბანდიტის გამომავალზე, უზრუნველყოფს, რომ მცირე წყაროები არ მიიღონ შიმშილი და დიდი წყაროები არ განიმეოროს მემორიზაციისთვის.

ციტირება

ANDREA whitepaper, განყოფილება 3.2.