1. Giriş
Derin öğrenme genellikle önemli miktarda göreve özel veri ve hesaplama kaynağı gerektirir; bu da yeni görevler için engelleyici maliyetlere yol açabilir. Aktarım öğrenimi, göreve özel gereksinimlerin bir ön eğitim aşamasıyla değiştirilmesiyle bir çözüm sunar. Bu yaklaşımda, bir ağ önce büyük ve genel bir veri kümesi üzerinde eğitilir, ardından ağırlıkları sonraki görevlerin başlatılması için kullanılarak daha az veri noktası ve düşük hesaplama gereksinimiyle etkili öğrenme sağlanır. Bu makale, büyük denetimli kaynak veri kümeleri üzerinde ön eğitim ve hedef görevlerde model ağırlıklarının ince ayar yapılması gibi basit paradigmayı yeniden ele alıyor. Yeni bileşenler veya karmaşıklık getirmek yerine, yazarlar geniş bir görev yelpazesinde mükemmel performans elde etmek için özenle seçilmiş mevcut tekniklerden yararlanan minimalist bir yöntem sunmayı hedefliyor. Bu yöntem "Büyük Transfer" (BiT) olarak adlandırılıyor.
BiT yaklaşımı, farklı ölçeklerdeki veri kümeleri üzerinde ağların ön eğitimini içerir; en büyük model olan BiT-L, 300 milyon gürültülü etiketli görüntü içeren JFT-300M veri kümesi üzerinde eğitilmiştir. Transfer edilen modeller, ImageNet'in ILSVRC-2012, CIFAR-10/100, Oxford-IIIT Pet, Oxford Flowers-102 ve 19 farklı veri kümesinden oluşan Visual Task Adaptation Benchmark (VTAB) gibi çeşitli görevlerde değerlendirilmiştir. BiT-L bu görevlerin çoğunda en iyi performansı elde etmiş ve çok sınırlı alt veri mevcut olduğunda bile dikkat çekici bir etkililik göstermiştir. Ayrıca, herkese açık ImageNet-21k veri kümesi üzerinde ön eğitilmiş BiT-M modeli, popüler ILSVRC-2012 ön eğitimine kıyasla önemli iyileştirmeler sergilemiştir. BiT'nin temel bir avantajı, yalnızca bir ön eğitim aşaması gerektirmesi ve sonraki alt görevlere ince ayar yapmanın hesaplama açısından uygun maliyetli olmasıdır; bu durum, belirli görevlere bağlı destek verileri üzerinde kapsamlı eğitim gerektiren diğer en iyi yöntemlerden farklıdır.
2. Büyük Transfer Metodolojisi
Büyük Transfer (BiT) metodolojisi, aktarım öğrenimi için etkili bir ağ oluşturmada temel olan birkaç özenle seçilmiş bileşen üzerine inşa edilmiştir. Bu bileşenler yukarı akış (ön eğitim sırasında kullanılan) ve aşağı akış (ince ayar sırasında kullanılan) öğeleri olarak kategorize edilir.
2.1 Yukarı Akış Bileşenleri
Büyük Ölçekli Ön Eğitim: BiT, ön eğitim için büyük ölçekli denetimli veri kümelerinden yararlanır. En büyük model olan BiT-L, 300 milyon gürültülü etiketli görüntü içeren JFT-300M veri kümesi üzerinde eğitilmiştir. Başka bir model olan BiT-M ise ImageNet-21k veri kümesi üzerinde eğitilmiştir. Bu kapsamlı veri kümelerinin kullanımı, modelin çeşitli alt görevlere aktarılabilen zengin ve genel görsel temsiller öğrenmesini sağlar.
Mimari ve Eğitim Hiperparametreleri: Yazarlar, uygun mimarilerin ve eğitim hiperparametrelerinin seçiminin önemini vurgulamaktadır. Ön eğitim performansını optimize etmek için model ölçeği, mimari seçimleri ve hiperparametre ayarları arasındaki etkileşimi araştırırlar. Yüksek transfer performansına katkıda bulunan temel faktörleri belirlemek için ayrıntılı analizler yapılmış, böylece modelin görsel özellikleri etkili bir şekilde yakalayıp genelleştirebilmesi sağlanmıştır.
2.2 Aşağı Akış Bileşenleri
İnce Ayar Protokolü: Ön eğitimden sonra model hedef görev üzerinde ince ayar yapılır. BiT, minimum hiperparametre ayarı gerektiren basit ve verimli bir ince ayar protokolü kullanır. Yazarlar, aktarım sırasında hiperparametreleri ayarlamak için çeşitli değerlendirme paketlerinde sağlam çalışan bir sezgisel yöntem önermektedir. Bu sezgisel yöntem, uyarlama sürecini basitleştirir ve her yeni görev için hiperparametre optimizasyonuyla ilişkili hesaplama maliyetini azaltır.
Farklı Veri Rejimlerinin Yönetimi: BiT, sınıf başına yalnızca bir örnek içeren az örnekli öğrenme senaryolarından toplam 1 milyon örneğe kadar büyük ölçekli veri kümelerine kadar geniş bir veri rejimi yelpazesinde iyi performans gösterecek şekilde tasarlanmıştır. Metodoloji, veri kıtlığı olan ortamlarda etkili ince ayar için stratejiler içererek modelin sınırlı etiketli veriyle bile yüksek performansı korumasını sağlar.
3. Deneysel Sonuçlar
BiT modelleri, aktarım öğrenimindeki etkinliklerini göstermek için çeşitli kıyaslamalarda değerlendirilmiştir. Deneyler, yaklaşımın sağlamlığını ve çok yönlülüğünü vurgulayarak birden fazla veri kümesini ve veri rejimini kapsamaktadır.
ILSVRC-2012
BiT-L, tam veri kümesinde %87,5 doğruluk ve sınıf başına yalnızca 10 örnekle %76,8 doğruluk elde etmiştir.
CIFAR-10
BiT-L, tam veri kümesinde %99,4 doğruluk ve sınıf başına 10 örnekle %97,0 doğruluk elde etmiştir.
CIFAR-100
Model, hem tam veri hem de az örnekli ayarlarda yüksek doğruluk oranlarıyla güçlü performans göstermiştir.
VTAB Kıyaslaması
BiT-L, 19 görevden oluşan Visual Task Adaptation Benchmark'ta görev başına yalnızca 1.000 örnek kullanarak %76,3 doğruluk elde etmiştir.
3.1 Az Örnekli Öğrenmede Performans
BiT, sınıf başına yalnızca sınırlı sayıda etiketli örneğin bulunduğu az örnekli öğrenme senaryolarında üstün performans sergiler. Örneğin, ILSVRC-2012'de sınıf başına 10 örnekle BiT-L %76,8 doğruluk elde ederek temel modelleri önemli ölçüde geride bırakmıştır. Benzer şekilde, CIFAR-10'da sınıf başına 10 örnekle %97,0 doğruluğa ulaşmıştır.