大型遷移學習（BiT）：通用視覺表徵學習

1. 簡介

深度學習通常需要大量任務專用數據同計算資源，對新任務嚟講成本可能過高。遷移學習通過預訓練階段取代任務專用需求，提供解決方案。呢種方法先喺大型通用數據集訓練網絡，再將權重用於初始化後續任務，從而用更少數據同計算資源實現有效學習。本文重新審視咗基於大型監督源數據集預訓練、並針對目標任務微調模型權重嘅簡潔範式。作者唔係引入新組件或複雜度，而係提供一套極簡方案，透過精選現有技術喺廣泛任務中實現卓越性能。呢套方案稱為「大型遷移學習」（BiT）。

BiT方法涉及唔同規模數據集嘅預訓練，其中最大模型BiT-L基於包含3億張噪聲標註圖像嘅JFT-300M數據集訓練。遷移模型喺多個任務進行評估，包括ImageNet嘅ILSVRC-2012、CIFAR-10/100、Oxford-IIIT Pet、Oxford Flowers-102，以及包含19個數據集嘅視覺任務適應基準（VTAB）。BiT-L喺多項任務達到頂尖性能，即使下游數據極少時仍表現卓越。另外，基於公開ImageNet-21k數據集預訓練嘅BiT-M模型，相比流行嘅ILSVRC-2012預訓練有顯著提升。BiT嘅關鍵優勢在於只需一次預訓練，後續下游任務微調計算成本極低，唔似其他頂尖方法需要針對特定任務進行大量支援數據訓練。

2. 大型遷移學習方法

大型遷移學習（BiT）方法建基於幾項精選組件，對構建有效遷移學習網絡至關重要。呢啲組件分為上游（預訓練期間使用）同下游（微調期間使用）元素。

2.1 上游組件

大規模預訓練： BiT利用大規模監督數據集進行預訓練。最大模型BiT-L基於JFT-300M數據集訓練，該數據集包含3億張帶噪聲標籤嘅圖像。另一模型BiT-M則基於ImageNet-21k數據集訓練。使用如斯大規模數據集讓模型學習到豐富通用嘅視覺表徵，可遷移至各類下游任務。

架構與訓練超參數： 作者強調選擇合適架構同訓練超參數嘅重要性。佢哋探索模型規模、架構選擇同超參數設置之間嘅相互作用，以優化預訓練性能。通過詳細分析識別提升遷移性能嘅關鍵因素，確保模型能有效捕捉同泛化視覺特徵。

2.2 下游組件

微調流程： 預訓練後，模型會針對目標任務進行微調。BiT採用簡潔高效嘅微調流程，只需極少超參數調整。作者提出咗遷移過程中設置超參數嘅經驗法則，喺多樣化評估套件中表現穩定。此法則簡化適應過程，降低每個新任務超參數優化嘅計算成本。

應對多樣數據場景： BiT設計用於喺廣泛數據場景中保持優異性能，從每類僅得單一樣本嘅少樣本學習，到總計百萬樣本嘅大規模數據集。該方法包含數據稀缺環境下有效微調嘅策略，確保模型即使面對有限標註數據仍保持高性能。

3. 實驗結果

BiT模型喺多個基準測試中進行評估，展示其遷移學習效能。實驗涵蓋多個數據集同數據場景，突顯方法嘅穩健性同通用性。

ILSVRC-2012

BiT-L喺完整數據集達到87.5% top-1準確率，每類僅10樣本時仍保持76.8%準確率。

CIFAR-10

BiT-L喺完整數據集取得99.4%準確率，每類10樣本時達到97.0%準確率。

CIFAR-100

模型表現強勁，無論全數據定少樣本設定均保持高準確率。

VTAB基準

BiT-L喺包含19項任務嘅視覺任務適應基準中，每任務僅用1,000樣本即達到76.3%準確率。

3.1 少樣本學習表現

BiT喺少樣本學習場景表現卓越，即使每類僅得少量標註樣本。例如喺ILSVRC-2012數據集每類10樣本時，BiT-L達到76.8%準確率，顯著超越基線模型。同樣喺CIFAR-10數據集每類10樣本時，取得97.0%準確率。

目錄