बिग ट्रांसफर (BiT): सामान्य विज़ुअल रिप्रेजेंटेशन लर्निंग

BiT बड़े पैमाने की प्री-ट्रेनिंग और फाइन-ट्यूनिंग के माध्यम से विज़ुअल रिप्रेजेंटेशन लर्निंग के लिए एक सरल पर प्रभावी विधि है।
aipowertoken.com | PDF Size: 3.3 MB

1. परिचय

डीप लर्निंग में आमतौर पर पर्याप्त टास्क-विशिष्ट डेटा और कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, जो नए कार्यों के लिए अत्यधिक खर्चीली हो सकती है। ट्रांसफर लर्निंग एक प्री-ट्रेनिंग चरण द्वारा टास्क-विशिष्ट आवश्यकताओं को प्रतिस्थापित करके एक समाधान प्रदान करती है। इस दृष्टिकोण में, एक नेटवर्क को पहले एक बड़े, सामान्य डेटासेट पर प्रशिक्षित किया जाता है, और फिर इसके वज़न का उपयोग बाद के कार्यों को आरंभ करने के लिए किया जाता है, जिससे कम डेटा पॉइंट और कम कम्प्यूटेशनल मांगों के साथ प्रभावी शिक्षण संभव हो पाता है। यह पेपर बड़े सुपरवाइज्ड स्रोत डेटासेट पर प्री-ट्रेनिंग और टारगेट टास्क पर मॉडल वज़न को फाइन-ट्यून करने के सरल प्रतिमान को फिर से देखता है। नए घटकों या जटिलता को पेश करने के बजाय, लेखकों का लक्ष्य एक न्यूनतम विधि प्रदान करना है जो सावधानीपूर्वक चुनी गई मौजूदा तकनीकों का लाभ उठाकर कार्यों की एक विस्तृत श्रृंखला में उत्कृष्ट प्रदर्शन प्राप्त करती है। इस विधि को "बिग ट्रांसफर" (BiT) नाम दिया गया है।

BiT दृष्टिकोण में विभिन्न पैमानों के डेटासेट पर नेटवर्क की प्री-ट्रेनिंग शामिल है, जिसमें सबसे बड़ा मॉडल, BiT-L, JFT-300M डेटासेट पर प्रशिक्षित किया गया है जिसमें 300 मिलियन शोर-युक्त लेबल वाली छवियां हैं। स्थानांतरित मॉडलों का मूल्यांकन विभिन्न कार्यों पर किया गया है, जिनमें ImageNet का ILSVRC-2012, CIFAR-10/100, Oxford-IIIT Pet, Oxford Flowers-102, और विज़ुअल टास्क एडाप्टेशन बेंचमार्क (VTAB) शामिल हैं, जिसमें 19 विविध डेटासेट शामिल हैं। BiT-L इनमें से कई कार्यों पर अत्याधुनिक प्रदर्शन प्राप्त करता है और तब भी उल्लेखनीय प्रभावशीलता प्रदर्शित करता है जब डाउनस्ट्रीम डेटा बहुत सीमित उपलब्ध होता है। इसके अलावा, सार्वजनिक ImageNet-21k डेटासेट पर प्री-ट्रेन किया गया BiT-M मॉडल, लोकप्रिय ILSVRC-2012 प्री-ट्रेनिंग पर महत्वपूर्ण सुधार दर्शाता है। BiT का एक प्रमुख लाभ यह है कि इसके लिए केवल एक प्री-ट्रेनिंग चरण की आवश्यकता होती है, और बाद में डाउनस्ट्रीम कार्यों के लिए फाइन-ट्यूनिंग कम्प्यूटेशनल रूप से कम खर्चीली होती है, अन्य अत्याधुनिक विधियों के विपरीत जिन्हें विशिष्ट कार्यों पर आधारित सहायक डेटा पर व्यापक प्रशिक्षण की आवश्यकता होती है।

2. बिग ट्रांसफर कार्यप्रणाली

बिग ट्रांसफर (BiT) कार्यप्रणाली कुछ सावधानीपूर्वक चुने गए घटकों पर बनी है जो ट्रांसफर लर्निंग के लिए एक प्रभावी नेटवर्क बनाने के लिए आवश्यक हैं। इन घटकों को अपस्ट्रीम (प्री-ट्रेनिंग के दौरान उपयोग किए जाने वाले) और डाउनस्ट्रीम (फाइन-ट्यूनिंग के दौरान उपयोग किए जाने वाले) तत्वों में वर्गीकृत किया गया है।

2.1 अपस्ट्रीम घटक

बड़े पैमाने की प्री-ट्रेनिंग: BiT प्री-ट्रेनिंग के लिए बड़े पैमाने वाले सुपरवाइज्ड डेटासेट का लाभ उठाता है। सबसे बड़ा मॉडल, BiT-L, JFT-300M डेटासेट पर प्रशिक्षित किया गया है, जिसमें 300 मिलियन शोर-युक्त लेबल वाली छवियां हैं। एक अन्य मॉडल, BiT-M, ImageNet-21k डेटासेट पर प्रशिक्षित किया गया है। इतने व्यापक डेटासेट के उपयोग से मॉडल समृद्ध और सामान्य विज़ुअल रिप्रेजेंटेशन सीख पाता है जो विभिन्न डाउनस्ट्रीम कार्यों में स्थानांतरित किए जा सकते हैं।

आर्किटेक्चर और प्रशिक्षण हाइपरपैरामीटर: लेखक उपयुक्त आर्किटेक्चर और प्रशिक्षण हाइपरपैरामीटर चुनने के महत्व पर जोर देते हैं। वे प्री-ट्रेनिंग प्रदर्शन को अनुकूलित करने के लिए मॉडल स्केल, आर्किटेक्चर विकल्पों और हाइपरपैरामीटर सेटिंग्स के बीच अंतर्क्रिया का पता लगाते हैं। उच्च ट्रांसफर प्रदर्शन में योगदान देने वाले प्रमुख कारकों की पहचान करने के लिए विस्तृत विश्लेषण किया जाता है, यह सुनिश्चित करते हुए कि मॉडल प्रभावी ढंग से विज़ुअल फीचर्स को कैप्चर और सामान्यीकृत कर सकता है।

3. प्रायोगिक परिणाम

BiT मॉडलों का मूल्यांकन ट्रांसफर लर्निंग में उनकी प्रभावशीलता प्रदर्शित करने के लिए विभिन्न बेंचमार्क पर किया गया है। प्रयोग कई डेटासेट और डेटा शासनों को कवर करते हैं, जो दृष्टिकोण की मजबूती और बहुमुखी प्रतिभा को उजागर करते हैं।

ILSVRC-2012

BiT-L पूर्ण डेटासेट पर 87.5% शीर्ष-1 सटीकता और प्रति वर्ग केवल 10 उदाहरणों के साथ 76.8% सटीकता प्राप्त करता है।

CIFAR-10

BiT-L पूर्ण डेटासेट पर 99.4% सटीकता और प्रति वर्ग 10 उदाहरणों के साथ 97.0% सटीकता प्राप्त करता है।

CIFAR-100

मॉडल मजबूत प्रदर्शन दिखाता है, जिसमें पूर्ण-डेटा और फ्यू-शॉट दोनों सेटिंग्स में उच्च सटीकता दरें हैं।

VTAB बेंचमार्क

BiT-L 19-टास्क विज़ुअल टास्क एडाप्टेशन बेंचमार्क पर प्रति टास्क केवल 1,000 नमूनों का उपयोग करके 76.3% सटीकता प्राप्त करता है।

3.1 फ्यू-शॉट लर्निंग पर प्रदर्शन

BiT फ्यू-शॉट लर्निंग परिदृश्यों में उत्कृष्ट प्रदर्शन करता है, जहां प्रति वर्ग केवल एक सीमित संख्या में लेबल वाले उदाहरण उपलब्ध होते हैं। उदाहरण के लिए, ILSVRC-2012 पर प्रति वर्ग 10 उदाहरणों के साथ, BiT-L 76.8% सटीकता प्राप्त करता है, जो बेसलाइन मॉडलों से काफी बेहतर है। इसी तरह, CIFAR-10 पर प्रति वर्ग 10 उदाहरणों के साथ, यह 97.0% सटीकता तक पहुंचता है। ये