انتقال بزرگ (BiT): یادگیری بازنمایی بصری عمومی

فهرست مطالب

۱. مقدمه
۲. روش‌شناسی انتقال بزرگ
۳. نتایج تجربی
۴. بینش‌های کلیدی
۵. نتیجه‌گیری

۱. مقدمه

یادگیری عمیق معمولاً به داده‌های ویژه وظیفه و منابع محاسباتی قابل توجهی نیاز دارد که می‌تواند برای وظایف جدید بسیار پرهزینه باشد. یادگیری انتقالی با جایگزینی الزامات ویژه وظیفه با فاز پیش‌آموزی، راه‌حلی ارائه می‌دهد. در این رویکرد، یک شبکه ابتدا روی یک مجموعه‌داده بزرگ و عمومی آموزش داده می‌شود و سپس وزن‌های آن برای مقداردهی اولیه وظایف بعدی استفاده می‌شود که یادگیری مؤثر با داده کمتر و تقاضای محاسباتی کاهش‌یافته را ممکن می‌سازد. این مقاله پارادایم ساده پیش‌آموزی روی مجموعه‌داده‌های منبع نظارت‌شده بزرگ و تنظیم دقیق وزن‌های مدل روی وظایف هدف را بازبینی می‌کند. به جای معرفی مؤلفه‌ها یا پیچیدگی‌های نوین، نویسندگان قصد دارند یک دستورالعمل مینیمال ارائه دهند که از تکنیک‌های موجود با دقت انتخاب‌شده برای دستیابی به عملکرد عالی در طیف گسترده‌ای از وظایف بهره می‌برد. این دستورالعمل "انتقال بزرگ" (BiT) نامیده می‌شود.

روش BiT شامل پیش‌آموزی شبکه‌ها روی مجموعه‌داده‌هایی با مقیاس‌های مختلف است که بزرگترین مدل آن، BiT-L، روی مجموعه‌داده JFT-300M حاوی ۳۰۰ میلیون تصویر با برچسب‌های نویزی آموزش دیده است. مدل‌های انتقال‌یافته روی وظایف متنوعی ارزیابی می‌شوند از جمله ILSVRC-2012 ای‌م‌ج‌نت، CIFAR-10/100، Oxford-IIIT Pet، Oxford Flowers-102 و معیار سازگاری وظایف بصری (VTAB) که شامل ۱۹ مجموعه‌داده متنوع است. BiT-L به عملکرد پیشرفته در بسیاری از این وظایف دست می‌یابد و اثربخشی قابل توجهی حتی در صورت وجود داده پایین‌دستی بسیار محدود نشان می‌دهد. علاوه بر این، مدل BiT-M که روی مجموعه‌داده عمومی ImageNet-21k پیش‌آموزی دیده است، بهبودهای قابل‌توجهی نسبت به پیش‌آموزی متداول ILSVRC-2012 نشان می‌دهد. یک مزیت کلیدی BiT این است که تنها به یک فاز پیش‌آموزی نیاز دارد و تنظیم دقیق بعدی برای وظایف پایین‌دستی از نظر محاسباتی کم‌هزینه است، برخلاف سایر روش‌های پیشرفته که به آموزش گسترده روی داده پشتیبان مشروط به وظایف خاص نیاز دارند.

۲. روش‌شناسی انتقال بزرگ

روش‌شناسی انتقال بزرگ (BiT) بر اساس چند مؤلفه با دقت انتخاب‌شده ساخته شده است که برای ایجاد یک شبکه مؤثر برای یادگیری انتقالی ضروری هستند. این مؤلفه‌ها به عناصر بالادستی (مورد استفاده در طول پیش‌آموزی) و پایین‌دستی (مورد استفاده در طول تنظیم دقیق) دسته‌بندی می‌شوند.

۲.۱ مؤلفه‌های بالادستی

پیش‌آموزی در مقیاس بزرگ: BiT از مجموعه‌داده‌های نظارت‌شده در مقیاس بزرگ برای پیش‌آموزی بهره می‌برد. بزرگترین مدل، BiT-L، روی مجموعه‌داده JFT-300M آموزش دیده است که حاوی ۳۰۰ میلیون تصویر با برچسب‌های نویزی است. مدل دیگر، BiT-M، روی مجموعه‌داده ImageNet-21k آموزش دیده است. استفاده از چنین مجموعه‌داده‌های گسترده‌ای به مدل اجازه می‌دهد تا بازنمایی‌های بصری غنی و عمومی را یاد بگیرد که به انواع وظایف پایین‌دستی قابل انتقال هستند.

معماری و ابرپارامترهای آموزش: نویسندگان بر اهمیت انتخاب معماری‌ها و ابرپارامترهای آموزش مناسب تأکید می‌کنند. آنها به بررسی تعامل بین مقیاس مدل، انتخاب‌های معماری و تنظیمات ابرپارامتر برای بهینه‌سازی عملکرد پیش‌آموزی می‌پردازند. تحلیل مفصلی برای شناسایی عوامل کلیدی که به عملکرد انتقال بالا کمک می‌کنند انجام می‌شود تا اطمینان حاصل شود که مدل می‌تواند ویژگی‌های بصری را به طور مؤثر捕获 کرده و تعمیم دهد.

۲.۲ مؤلفه‌های پایین‌دستی

پروتکل تنظیم دقیق: پس از پیش‌آموزی، مدل روی وظیفه هدف تنظیم دقیق می‌شود. BiT از یک پروتکل تنظیم دقیق ساده و کارآمد استفاده می‌کند که به حداقل تنظیم ابرپارامتر نیاز دارد. نویسندگان یک راهکار اکتشافی برای تنظیم ابرپارامترها در طول انتقال پیشنهاد می‌کنند که به طور robust در مجموعه ارزیابی متنوع آنها کار می‌کند. این راهکار اکتشافی فرآیند سازگاری را ساده کرده و هزینه محاسباتی مرتبط با بهینه‌سازی ابرپارامتر برای هر وظیفه جدید را کاهش می‌دهد.

مدیریت رژیم‌های داده متنوع: BiT برای عملکرد خوب در طیف گسترده‌ای از رژیم‌های داده طراحی شده است، از سناریوهای یادگیری few-shot با حداقل یک نمونه در هر کلاس تا مجموعه‌داده‌های در مقیاس بزرگ با حداکثر ۱ میلیون نمونه کل. روش‌شناسی شامل راهبردهایی برای تنظیم دقیق مؤثر در محیط‌های با داده کم است که اطمینان می‌دهد مدل حتی با داده برچسب‌دار محدود نیز عملکرد بالایی حفظ می‌کند.

۳. نتایج تجربی

مدل‌های BiT روی معیارهای مختلفی ارزیابی می‌شوند تا اثربخشی آنها در یادگیری انتقالی نشان داده شود. آزمایش‌ها چندین مجموعه‌داده و رژیم داده را پوشش می‌دهند و استحکام و تطبیق‌پذیری رویکرد را برجسته می‌کنند.

ILSVRC-2012

BiT-L به دقت ۸۷.۵٪ top-1 در مجموعه‌داده کامل و ۷۶.۸٪ با تنها ۱۰ نمونه در هر کلاس دست می‌یابد.

CIFAR-10

BiT-L به دقت ۹۹.۴٪ در مجموعه‌داده کامل و ۹۷.۰٪ با ۱۰ نمونه در هر کلاس می‌رسد.

CIFAR-100

مدل عملکرد قوی نشان می‌دهد، با نرخ‌های دقت بالا در هر دو تنظیم داده کامل و few-shot.

معیار VTAB

BiT-L به دقت ۷۶.۳٪ در معیار سازگاری وظایف بصری ۱۹ وظیفه‌ای با استفاده از تنها ۱,۰۰۰ نمونه در هر وظیفه دست می‌یابد.

۳.۱ عملکرد در یادگیری Few-Shot

BiT در سناریوهای یادگیری few-shot درخشان عمل می‌کند، جایی که تنها تعداد محدودی نمونه برچسب‌دار در هر کلاس موجود است. برای مثال، در ILSVRC-2012 با ۱۰ نمونه در هر کلاس، BiT-L به دقت ۷۶.۸٪ دست می‌یابد که به طور قابل‌توجهی از مدل‌های پایه بهتر عمل می‌کند. به طور مشابه، در CIFAR-10 با ۱۰ نمونه در هر کلاس، به دقت ۹۷.۰٪ می‌رسد. این