۱. مقدمه
یادگیری عمیق معمولاً به دادههای ویژه وظیفه و منابع محاسباتی قابل توجهی نیاز دارد که میتواند برای وظایف جدید بسیار پرهزینه باشد. یادگیری انتقالی با جایگزینی الزامات ویژه وظیفه با فاز پیشآموزی، راهحلی ارائه میدهد. در این رویکرد، یک شبکه ابتدا روی یک مجموعهداده بزرگ و عمومی آموزش داده میشود و سپس وزنهای آن برای مقداردهی اولیه وظایف بعدی استفاده میشود که یادگیری مؤثر با داده کمتر و تقاضای محاسباتی کاهشیافته را ممکن میسازد. این مقاله پارادایم ساده پیشآموزی روی مجموعهدادههای منبع نظارتشده بزرگ و تنظیم دقیق وزنهای مدل روی وظایف هدف را بازبینی میکند. به جای معرفی مؤلفهها یا پیچیدگیهای نوین، نویسندگان قصد دارند یک دستورالعمل مینیمال ارائه دهند که از تکنیکهای موجود با دقت انتخابشده برای دستیابی به عملکرد عالی در طیف گستردهای از وظایف بهره میبرد. این دستورالعمل "انتقال بزرگ" (BiT) نامیده میشود.
روش BiT شامل پیشآموزی شبکهها روی مجموعهدادههایی با مقیاسهای مختلف است که بزرگترین مدل آن، BiT-L، روی مجموعهداده JFT-300M حاوی ۳۰۰ میلیون تصویر با برچسبهای نویزی آموزش دیده است. مدلهای انتقالیافته روی وظایف متنوعی ارزیابی میشوند از جمله ILSVRC-2012 ایمجنت، CIFAR-10/100، Oxford-IIIT Pet، Oxford Flowers-102 و معیار سازگاری وظایف بصری (VTAB) که شامل ۱۹ مجموعهداده متنوع است. BiT-L به عملکرد پیشرفته در بسیاری از این وظایف دست مییابد و اثربخشی قابل توجهی حتی در صورت وجود داده پاییندستی بسیار محدود نشان میدهد. علاوه بر این، مدل BiT-M که روی مجموعهداده عمومی ImageNet-21k پیشآموزی دیده است، بهبودهای قابلتوجهی نسبت به پیشآموزی متداول ILSVRC-2012 نشان میدهد. یک مزیت کلیدی BiT این است که تنها به یک فاز پیشآموزی نیاز دارد و تنظیم دقیق بعدی برای وظایف پاییندستی از نظر محاسباتی کمهزینه است، برخلاف سایر روشهای پیشرفته که به آموزش گسترده روی داده پشتیبان مشروط به وظایف خاص نیاز دارند.
۲. روششناسی انتقال بزرگ
روششناسی انتقال بزرگ (BiT) بر اساس چند مؤلفه با دقت انتخابشده ساخته شده است که برای ایجاد یک شبکه مؤثر برای یادگیری انتقالی ضروری هستند. این مؤلفهها به عناصر بالادستی (مورد استفاده در طول پیشآموزی) و پاییندستی (مورد استفاده در طول تنظیم دقیق) دستهبندی میشوند.
۲.۱ مؤلفههای بالادستی
پیشآموزی در مقیاس بزرگ: BiT از مجموعهدادههای نظارتشده در مقیاس بزرگ برای پیشآموزی بهره میبرد. بزرگترین مدل، BiT-L، روی مجموعهداده JFT-300M آموزش دیده است که حاوی ۳۰۰ میلیون تصویر با برچسبهای نویزی است. مدل دیگر، BiT-M، روی مجموعهداده ImageNet-21k آموزش دیده است. استفاده از چنین مجموعهدادههای گستردهای به مدل اجازه میدهد تا بازنماییهای بصری غنی و عمومی را یاد بگیرد که به انواع وظایف پاییندستی قابل انتقال هستند.
معماری و ابرپارامترهای آموزش: نویسندگان بر اهمیت انتخاب معماریها و ابرپارامترهای آموزش مناسب تأکید میکنند. آنها به بررسی تعامل بین مقیاس مدل، انتخابهای معماری و تنظیمات ابرپارامتر برای بهینهسازی عملکرد پیشآموزی میپردازند. تحلیل مفصلی برای شناسایی عوامل کلیدی که به عملکرد انتقال بالا کمک میکنند انجام میشود تا اطمینان حاصل شود که مدل میتواند ویژگیهای بصری را به طور مؤثر捕获 کرده و تعمیم دهد.
۲.۲ مؤلفههای پاییندستی
پروتکل تنظیم دقیق: پس از پیشآموزی، مدل روی وظیفه هدف تنظیم دقیق میشود. BiT از یک پروتکل تنظیم دقیق ساده و کارآمد استفاده میکند که به حداقل تنظیم ابرپارامتر نیاز دارد. نویسندگان یک راهکار اکتشافی برای تنظیم ابرپارامترها در طول انتقال پیشنهاد میکنند که به طور robust در مجموعه ارزیابی متنوع آنها کار میکند. این راهکار اکتشافی فرآیند سازگاری را ساده کرده و هزینه محاسباتی مرتبط با بهینهسازی ابرپارامتر برای هر وظیفه جدید را کاهش میدهد.
مدیریت رژیمهای داده متنوع: BiT برای عملکرد خوب در طیف گستردهای از رژیمهای داده طراحی شده است، از سناریوهای یادگیری few-shot با حداقل یک نمونه در هر کلاس تا مجموعهدادههای در مقیاس بزرگ با حداکثر ۱ میلیون نمونه کل. روششناسی شامل راهبردهایی برای تنظیم دقیق مؤثر در محیطهای با داده کم است که اطمینان میدهد مدل حتی با داده برچسبدار محدود نیز عملکرد بالایی حفظ میکند.
۳. نتایج تجربی
مدلهای BiT روی معیارهای مختلفی ارزیابی میشوند تا اثربخشی آنها در یادگیری انتقالی نشان داده شود. آزمایشها چندین مجموعهداده و رژیم داده را پوشش میدهند و استحکام و تطبیقپذیری رویکرد را برجسته میکنند.
ILSVRC-2012
BiT-L به دقت ۸۷.۵٪ top-1 در مجموعهداده کامل و ۷۶.۸٪ با تنها ۱۰ نمونه در هر کلاس دست مییابد.
CIFAR-10
BiT-L به دقت ۹۹.۴٪ در مجموعهداده کامل و ۹۷.۰٪ با ۱۰ نمونه در هر کلاس میرسد.
CIFAR-100
مدل عملکرد قوی نشان میدهد، با نرخهای دقت بالا در هر دو تنظیم داده کامل و few-shot.
معیار VTAB
BiT-L به دقت ۷۶.۳٪ در معیار سازگاری وظایف بصری ۱۹ وظیفهای با استفاده از تنها ۱,۰۰۰ نمونه در هر وظیفه دست مییابد.
۳.۱ عملکرد در یادگیری Few-Shot
BiT در سناریوهای یادگیری few-shot درخشان عمل میکند، جایی که تنها تعداد محدودی نمونه برچسبدار در هر کلاس موجود است. برای مثال، در ILSVRC-2012 با ۱۰ نمونه در هر کلاس، BiT-L به دقت ۷۶.۸٪ دست مییابد که به طور قابلتوجهی از مدلهای پایه بهتر عمل میکند. به طور مشابه، در CIFAR-10 با ۱۰ نمونه در هر کلاس، به دقت ۹۷.۰٪ میرسد. این