大型遷移學習(BiT):通用視覺表徵學習

BiT係透過大規模預訓練同微調實現視覺表徵學習嘅高效方案,喺多個數據集達到頂尖性能。
aipowertoken.com | PDF Size: 3.3 MB

1. 簡介

深度學習通常需要大量任務專用數據同計算資源,對新任務嚟講成本可能過高。遷移學習通過預訓練階段取代任務專用需求,提供解決方案。呢種方法先喺大型通用數據集訓練網絡,再將權重用於初始化後續任務,從而用更少數據同計算資源實現有效學習。本文重新審視咗基於大型監督源數據集預訓練、並針對目標任務微調模型權重嘅簡潔範式。作者唔係引入新組件或複雜度,而係提供一套極簡方案,透過精選現有技術喺廣泛任務中實現卓越性能。呢套方案稱為「大型遷移學習」(BiT)。

BiT方法涉及唔同規模數據集嘅預訓練,其中最大模型BiT-L基於包含3億張噪聲標註圖像嘅JFT-300M數據集訓練。遷移模型喺多個任務進行評估,包括ImageNet嘅ILSVRC-2012、CIFAR-10/100、Oxford-IIIT Pet、Oxford Flowers-102,以及包含19個數據集嘅視覺任務適應基準(VTAB)。BiT-L喺多項任務達到頂尖性能,即使下游數據極少時仍表現卓越。另外,基於公開ImageNet-21k數據集預訓練嘅BiT-M模型,相比流行嘅ILSVRC-2012預訓練有顯著提升。BiT嘅關鍵優勢在於只需一次預訓練,後續下游任務微調計算成本極低,唔似其他頂尖方法需要針對特定任務進行大量支援數據訓練。

2. 大型遷移學習方法

大型遷移學習(BiT)方法建基於幾項精選組件,對構建有效遷移學習網絡至關重要。呢啲組件分為上游(預訓練期間使用)同下游(微調期間使用)元素。

2.1 上游組件

大規模預訓練: BiT利用大規模監督數據集進行預訓練。最大模型BiT-L基於JFT-300M數據集訓練,該數據集包含3億張帶噪聲標籤嘅圖像。另一模型BiT-M則基於ImageNet-21k數據集訓練。使用如斯大規模數據集讓模型學習到豐富通用嘅視覺表徵,可遷移至各類下游任務。

架構與訓練超參數: 作者強調選擇合適架構同訓練超參數嘅重要性。佢哋探索模型規模、架構選擇同超參數設置之間嘅相互作用,以優化預訓練性能。通過詳細分析識別提升遷移性能嘅關鍵因素,確保模型能有效捕捉同泛化視覺特徵。

2.2 下游組件

微調流程: 預訓練後,模型會針對目標任務進行微調。BiT採用簡潔高效嘅微調流程,只需極少超參數調整。作者提出咗遷移過程中設置超參數嘅經驗法則,喺多樣化評估套件中表現穩定。此法則簡化適應過程,降低每個新任務超參數優化嘅計算成本。

應對多樣數據場景: BiT設計用於喺廣泛數據場景中保持優異性能,從每類僅得單一樣本嘅少樣本學習,到總計百萬樣本嘅大規模數據集。該方法包含數據稀缺環境下有效微調嘅策略,確保模型即使面對有限標註數據仍保持高性能。

3. 實驗結果

BiT模型喺多個基準測試中進行評估,展示其遷移學習效能。實驗涵蓋多個數據集同數據場景,突顯方法嘅穩健性同通用性。

ILSVRC-2012

BiT-L喺完整數據集達到87.5% top-1準確率,每類僅10樣本時仍保持76.8%準確率。

CIFAR-10

BiT-L喺完整數據集取得99.4%準確率,每類10樣本時達到97.0%準確率。

CIFAR-100

模型表現強勁,無論全數據定少樣本設定均保持高準確率。

VTAB基準

BiT-L喺包含19項任務嘅視覺任務適應基準中,每任務僅用1,000樣本即達到76.3%準確率。

3.1 少樣本學習表現

BiT喺少樣本學習場景表現卓越,即使每類僅得少量標註樣本。例如喺ILSVRC-2012數據集每類10樣本時,BiT-L達到76.8%準確率,顯著超越基線模型。同樣喺CIFAR-10數據集每類10樣本時,取得97.0%準確率。