大型遷移學習 (BiT):通用視覺表徵學習

大型遷移學習 (BiT) 透過大規模預訓練與微調,以簡潔有效的方法實現視覺表徵學習,在多樣化資料集中達到頂尖性能。
aipowertoken.com | PDF Size: 3.3 MB

1. 緒論

深度學習通常需要大量任務專屬資料與運算資源,對新任務而言成本可能過高。遷移學習透過預訓練階段取代任務專屬需求,提供了解決方案。此方法先於大型通用資料集訓練網路,將其權重用於初始化後續任務,從而實現以更少資料點與降低運算需求的有效學習。本文重新審視了在大型監督式源資料集進行預訓練,並針對目標任務微調模型權重的簡潔範式。作者未引入新穎組件或複雜度,旨在提供極簡方法論,透過精選現有技術在廣泛任務中實現卓越性能。此方法稱為「大型遷移學習」(BiT)。

BiT方法包含在不同規模資料集進行網路預訓練,其中最大模型BiT-L於包含3億張噪聲標註圖像的JFT-300M資料集訓練。遷移模型在多元任務上進行評估,包含ImageNet的ILSVRC-2012、CIFAR-10/100、Oxford-IIIT Pet、Oxford Flowers-102,以及涵蓋19個多元資料集的視覺任務適應基準(VTAB)。BiT-L在多數任務中達到頂尖性能,即使在下游資料極度有限時仍展現卓越效能。此外,基於公開ImageNet-21k資料集預訓練的BiT-M模型,相較廣為使用的ILSVRC-2012預訓練展現顯著提升。BiT的關鍵優勢在於僅需單次預訓練階段,後續對下游任務的微調運算成本極低,有別於其他需針對特定任務進行大量支援資料訓練的頂尖方法。

2. 大型遷移學習方法論

大型遷移學習(BiT)方法論建構於數個精選組件,這些組件對建立有效的遷移學習網路至關重要,可分為上游(預訓練期間使用)與下游(微調期間使用)元素。

2.1 上游組件

大規模預訓練: BiT運用大規模監督式資料集進行預訓練。最大模型BiT-L於JFT-300M資料集訓練,該資料集包含3億張帶噪聲標籤的圖像。另一模型BiT-M則基於ImageNet-21k資料集訓練。使用如此大規模資料集使模型能學習豐富且通用的視覺表徵,並可遷移至各類下游任務。

架構與訓練超參數: 作者強調選擇適當架構與訓練超參數的重要性。他們探索模型規模、架構選擇與超參數設定間的相互作用,以優化預訓練性能。透過詳細分析識別提升遷移性能的關鍵因素,確保模型能有效捕捉並泛化視覺特徵。

2.2 下游組件

微調協定: 預訓練後,模型會針對目標任務進行微調。BiT採用簡潔高效的微調協定,僅需極少超參數調整。作者提出在遷移過程中設定超參數的啟發式方法,在其多元評估套件中均能穩定運作。此啟發式方法簡化了適應過程,並降低針對每個新任務進行超參數優化的運算成本。

處理多元資料情境: BiT設計用於在廣泛資料情境中保持優異表現,從每類僅單一樣本的少樣本學習情境,到總計達百萬樣本的大規模資料集。此方法論包含在資料稀缺環境中有效微調的策略,確保模型即使在有限標註資料下仍維持高效能。

3. 實驗結果

BiT模型在多種基準測試中進行評估,以驗證其在遷移學習中的有效性。實驗涵蓋多個資料集與資料情境,彰顯此方法的穩健性與通用性。

ILSVRC-2012

BiT-L在完整資料集達到87.5% top-1準確率,每類僅10樣本時仍達76.8%

CIFAR-10

BiT-L在完整資料集獲得99.4%準確率,每類10樣本時達97.0%

CIFAR-100

模型展現強勁性能,在完整資料與少樣本設定下均具高準確率。

VTAB基準測試

BiT-L在19任務視覺任務適應基準中,每任務僅使用1,000樣本即達76.3%準確率。

3.1 少樣本學習性能

BiT在少樣本學習情境中表現卓越,即使每類僅有極少數標註樣本可用。例如在ILSVRC-2012資料集中每類10樣本設定下,BiT-L達成76.8%準確率,顯著超越基線模型。同樣在CIFAR-10每類10樣本條件下,其準確率達97.0%。這些