English· Español· Deutsch· Nederlands· Français· 日本語· ქართული· 繁體中文· 简体中文· Português· Русский· العربية· हिन्दी· Italiano· 한국어· Polski· Svenska· Türkçe· Українська· Tiếng Việt· Bahasa Indonesia

un

სავაჭრო უნარები. რეალური კარიერა. შენი გზა.

+

გაკვეთილის შექმნა

შედით სისტემაში, რომ შექმნათ და გააზიაროთ საკუთარი გაკვეთილები.

geometry of machine learning

ANDREA-ს გეომეტრია: ენობრივი მოდელის ტრენინგის ხუთი სივრცითი სურათი [DESCRIPTION /]

ANDREA-ს ყველა ნაწილი ატარებს ფორმას. ჩაშენებული სივრცე სემანტიკურ მანძილს წარმოადგენს როგორც ევკლიდურ მანძილს R^768-ში. ყურადღება წარმოადგენს წარსული ტოკენების პროექციას მოთხოვნის ქვესივრცეზე. დანაკარგის ზედაპირი წარმოადგენს მაღალგანზომილებიან რელიეფს, რომელზეც გრადიენტული დაშვება მოძრაობს. ბანდიტის წონები წარმოადგენს დისკრეტულ სიმპლექსს, სადაც თითოეული წვერო არის ერთი მონაცემთა წყარო და ყველა შიდა წერტილი არის სასწავლო პროგრამის ნაზავი. სასწავლო პროგრამის გახურება წარმოადგენს შეზღუდულ ქვემანიფოლდის პროექციას. ხუთი გეომეტრია, ერთი მოდელი. გაიარეთ თითოეული სურათი და დაიმახსოვრეთ სივრცითი ინტუიცია, რომელსაც აბსტრაქტული განტოლებები ვერ მოგაწვდით. [TITLE embedding_space/]

machine learning

ენთობის მოდელის განვითარება: ზარალი, პერპლექსია და SMMA მრუდი [DESCRIPTION /]

კროს-ენტროპიის ზარალი ზომავს იმდენად მოდელის გაკვირვებას, როდესაც ის ხედავს სწორ შემდეგ ტოკენს. პერპლექსია = exp(ზარალი) ზომავს იმავე გაკვირვებას უფრო მეგობრულ სკალაზე. SMMA (გაუმჯობესებული მოძრავი საშუალო) ზარალი თვალყურს ადევნებს ტრენინგის პროგრესს რეალურ დროში. ANDREA-12M მიაღწია SMMA 2.0-ს; ANDREA-120M ჩამოვიდა 3.43-მდე v1 მინიმუმზე, შემდეგ გაიპრიალა კოჰერენტულ მრავალპარაგრაფიან ჩატამდე. ეს აქტივობა განიხილავს მათემატიკას, შემთხვევითი შანსის ბაზის ხაზს და იმას, თუ როგორ წაიკითხო რეალური ზარალის მრუდი. [TITLE cross_entropy/]

machine learning

ენის მოდელის გაზრდა: Backprop მორგებულ CUDA-ში [DESCRIPTION /]

ANDREA-ის ტრენინგის ძრავი `microgpt_cuda.cu` შეიცავს ხელით დაწერილ ფორვარდულ და ბექვარდულ CUDA კერნელებს ყველა ოპერაციისთვის: მხედველობა, MLP, ფენის ნორმალიზაცია, ემბედინგები. არა PyTorch, არა JAX, არა autograd ბიბლიოთეკა. ჯაჭვის წესი ცხოვრობს C-სტილის კოდში, რომელიც კომპილირდება nvcc-ით და ლინკდება ერთ კომპილირებულ ფაილში. ეს აქტივობა განიხილავს ფორვარდულ კერნელებს, ბექვარდულ კერნელებს, გრადიენტის აკუმულაციის ბუფერებს და იმას, თუ რატომ მისცა ANDREA-ს საკუთარი ფრეიმვორკის დაწერამ სრული კონტროლი მეხსიერებაზე და რიცხვით სიზუსტეზე ერთ RTX 4090-ზე. [TITLE chain_rule/]

machine learning

ენთობის მოდელის განვითარება: წყაროს ფუძეები & ეპოქის შეკრული [DESCRIPTION /]

UCB1 რანჟირებს მკლავებს; ფაზაზე დაფუძნებული კამათის კონტროლი აწყობს ფოკუსის ნაკრებს. მაგრამ შეუმუშავებელი ბანდიტის გამომავალი შეიძლება გამოკვებოს პრიორიტეტული წყაროები ან შეინახოს მცირეები. ANDREA ორ დამცავ წესს ამატებს ზევით: წყაროს ფუძეები გარანტირებენ მინიმალური შეზღუდვის წონას თითოეული წყაროსთვის, & ეპოქის შეკრულები ამცირებს წყაროების წონას რომლებიც გამოყენებულან ერთხელ მეტი დოკუმენტზე (1/(1+epochs)). სიცოცხლის განმავლობაში გამოყენებები შენარჩუნდება ხელახლა გაშვებებზე. ეს აქტივობა ორივე წესს განიხილავს მუშაობის მაგალითებით. [TITLE source_floors/]

machine learning

ენთობის მოდელის გაზრდა: დაფარვის ბონუსი [DESCRIPTION /]

დოკუმენტის დონის დაფარვის თვალყურის დევნება & 1.3x სუნთქვის ბონუსი უბიძგებს ბანდიტს unexplored მონაცემებისკენ. CUDA აანგარიშებს რომელი დოკუმენტის ინდექსი იყო შეღებული თითოეული ნაბიჯზე; პროქსი თვალყურს უჭერს უნიკალურ დოკუმენტის ინდექსებს წყაროს მიხედვით. წყაროები რომლებიც 50%-ზე ნაკლებ დაფარვას აქვთ იღებენ მულტიპლიკატორს რომელიც მასშტაბდება 1.3x-მდე. ეს აქტივობა განმარტავს მათემატიკას, შეადარებს დაფარვის ბონუსს ეპოქის სჯასთან, & აჩვენებს როგორ ინარჩუნებს დოკუმენტის დონის სუნთქვა 500K-დოკუმენტის gutenberg კორპუსს რომ არ შეკუმშოს 2K-დოკუმენტის ქვემოდელში 200K ტრენინგის ნაბიჯის განმავლობაში. [TITLE doc_tracking/]

machine learning

ენთობის მოდელის განვითარება: ფილტრაცია ფორმის მიხედვით, არა სიმბოლოების [DESCRIPTION /]

v2 სასწავლო დაბინძურებულ მონაცემებზე: harness სესიის JSONL-ში გაჟონული აგენტის სისტემური პრომპტები მომხმარებლის ჯაჭვულში. მოდელმა ისწავლა, რომ მომხმარებლები საუბრობენ მრავალსექციურ მარკდაუნში და გაიმეორა აგენტის ორნამენტები. v2.5 პატჩი: `has_system_prompt_shape()` აღმოაჩენს გაჟონულ პრომპტებს **ფორმის** მიხედვით (სათაურების რაოდენობა, სიგრძე, ფირფინგერ ფრაზები), არა სიმბოლოების შესაბამისლობით. სამი სიგნალი ერთიანდება გადაყრის გადაწყვეტილებაში. გადაყრის მაჩვენებლები hermes3 წყაროების ხელახლა ფილტრაციის შემდეგ: 87.7%, 90.4%, 93.0%. ეს აქტივობა განიხილავს დეტექტორს და მის მიერ სწავლებულ გაკვეთილს: ორნამენტები ევოლუციონირებს, სტრუქტურა რჩება. [TITLE contamination/]

machine learning

ენის მოდელის განვითარება: თანმიმდევრულობის კარიბით ადრეული შეჩერება [DESCRIPTION /]

v1 გამოიმუშავა `region region region` 10+ დღის განმავლობაში, რადგან eval_chat_quality() მიერთებული იყო მხოლოდ მოძველებულ მრავალფაზიან მორბენთან და არასდროს გაეშვა firehose კურიკულუმის დროს. v2 შეიცავს თანმიმდევრულობის კარიბს: ყველა შეწოვა შეფასდება ოთხ მეტრიკით (დიგრამული მრავალფეროვნება 0-35, ტრიგრამული მრავალფეროვნება 0-35, ინგლისური სიტყვის არსებობა 0-20, სიმბოლოების მრავალფეროვნება 0-10). ავტომატური შეჩერება 5 თანმდევრული შეწოვის შემდეგ, რომლებიც 30-ზე ნაკლებს მიიღებენ. უკუ-ტესტირებული v1-ზე, კარი გააქტიურდებოდა 132K ნაბიჯზე, რაც 3.8 დღის გამოთვლას დაზოგავდა. ეს აქტივობა განიხილავს ოთხ შემფასებელს, თანმდევრული მრიცხველის დიზაინს და იმას, თუ რატომ აღმოაჩენს კომპოზიტური მეტრიკები შეცდომებს, რომლებსაც ერთი სიგნალი ვერ ხვდება. [TITLE v1_undetected/]

machine learning

ენის მოდელის გაშენება: საკონტროლო წერტილები, განახლება, სიგნალები [DESCRIPTION /]

ANDREA ყოველ 100 ნაბიჯზე წერს საკონტროლო წერტილს. თითოეული შეიცავს 4-ბაიტიანი ნაბიჯის header-ს, 4-ბაიტიანი პარამეტრების რაოდენობას, შემდეგ სამ float32 მასივს თანმიმდევრობით: წონები, Adam-ის პირველი მომენტი m, Adam-ის მეორე მომენტი v. SIGTERM იწვევს დაუყოვნებლივ საკონტროლო წერტილის ჩაწერას და გამოსვლას; SIGUSR1 იწვევს მოთხოვნისამებრ საკონტროლო წერტილის ჩაწერას შეჩერების გარეშე. .loss.json არასოდეს არქივდება (კუმულაციური სწავლების ისტორია never-archive წესის მიხედვით). გაიარეთ ბაიტების განლაგება, დახაზეთ განახლების სქემა და დაიმახსოვრეთ, რატომ არის ერთი წესი (არ დაარქივო .loss.json) უფრო მნიშვნელოვანი, ვიდრე ყველა სხვა არქივირების გადაწყვეტილება. [TITLE why_checkpoint/]

machine learning

ენის მოდელის განვითარება: ნიმუშების აუდიტი და გარე შეფასება [DESCRIPTION /]

დანაკარგი რიცხვია. ნიმუშების წაკითხვა არის ის, როგორ ვიცით, რას ნიშნავს ეს რიცხვი. ყოველ 100 ნაბიჯზე, ANDREA გენერირებს 420 ტოკენს თავისუფალი ფორმის გამომავალს, & დანაკარგი თითოეული ნიმუშის გვერდით ხდება ხუთი დონის: 0.30 = ფაქტობრივი გახსენება (ppl 1, შეუძლია მემორიზებული), 0.74 = სახელმძღვანელოს ერთხაზიანი (ppl 2), 1.05 = შეზღუდვის დაცვა (ppl 3), 1.94 = ცნობილი მაგრამ არაზუსტი (ppl 7), 0.13 = ანომალური მემორიზება (ზომბის მკლავის სიგნალი). ექვსი უკავშირდელი ცოდნის დომენი 700 ნაბიჯში ადასტურებს ბანდიტის მუშაობას. გარე ჩატის ხარისხის შეფასებამ ნიმუშებს 9.5/10 დააყო. გაიარე რეალური აუდიტი, ისწავლე დანაკარგის დონეები & დააჭირე ზომბის მკლავს მოქმედებაში. [TITLE why_audit/]

machine learning

ენის მოდელის განვითარება: microGPT-დან ANDREA-120M-მდე [DESCRIPTION /]

ANDREA-120M პირველ შეცდომაზე არ ჩამოყალიბდა. v1 ჩამოიშალა „region region region“-ში და მოიხმარა 165K ნაბიჯი 200K დაგეგმილიდან. ხუთი კომპაუნდირებული შეცდომა. v2 დაამატა ხუთი შესწორება და იმუშავა ორი კვირა, სანამ მონაცემთა დაბინძურება გამოჩნდებოდა 15K ნაბიჯზე. v2.5 შეაკეთა ფილტრი. v3 სუფთად იმუშავა 112K ნაბიჯამდე, სანამ ზომბი ბანდიტის მკლავი რეპო-დოკუმენტებს ზუსტად არ გაიმეორებდა, რამაც გამოიწვია პოლირების პივოტი 112,619 ნაბიჯზე. საათებში შეწირულებმა მიიღო 9.5/10 შეფასება. გაისეირნეთ ინჟინერიული ჩანაწერი ჩამონგრევიდან თანმიმდევრულობამდე; შეისწავლეთ რა შეცდომა გააუმჯობესა თითოეუმა შესწორებამ და რა სწავლა მოგცა შემდეგმა შეცდომამ. [TITLE v1_collapse/]

Unlimited access — no payment required

Complete 2 lessons, write a paragraph about your enterprise & earn solo-tier access through entrepreneur contribution track.

Entrepreneur track →