大规模迁移学习(BiT):通用视觉表征学习方案

BiT通过大规模预训练与微调的简洁方案,在多种数据集上实现顶尖性能的视觉表征学习方法。
aipowertoken.com | PDF Size: 3.3 MB

1. 引言

深度学习通常需要大量特定任务数据和计算资源,这对新任务而言成本高昂。迁移学习通过预训练阶段替代特定任务需求,提供了一种解决方案。该方法首先在大型通用数据集上训练网络,然后将其权重用于初始化后续任务,从而以更少数据和更低计算需求实现高效学习。本文重新审视了在大型有标注源数据集上进行预训练,并对目标任务进行模型权重微调的简洁范式。作者旨在提供一种极简方案,通过精选现有技术在各种任务中实现卓越性能,而非引入新组件或复杂度。该方案被称为“大规模迁移学习”(BiT)。

BiT方法包含在不同规模数据集上的预训练网络,其中最大模型BiT-L在包含3亿张噪声标注图像的JFT-300M数据集上训练。迁移模型在多种任务上评估,包括ImageNet的ILSVRC-2012、CIFAR-10/100、牛津IIIT宠物数据集、牛津花卉102数据集,以及包含19个数据集的视觉任务自适应基准(VTAB)。BiT-L在多数任务中达到顶尖性能,即使在下游数据极有限时仍表现卓越。此外,在公开ImageNet-21k数据集上预训练的BiT-M模型,相较广泛使用的ILSVRC-2012预训练展现出显著提升。BiT的关键优势在于仅需一次预训练阶段,后续下游任务微调计算成本极低,这与需要针对特定任务进行大量支撑数据训练的其他顶尖方法形成鲜明对比。

2. 大规模迁移学习方法

大规模迁移学习(BiT)方法基于若干精选核心组件,这些组件对构建高效的迁移学习网络至关重要,可分为上游(预训练阶段使用)和下游(微调阶段使用)要素。

2.1 上游组件

大规模预训练: BiT利用大规模有标注数据集进行预训练。最大模型BiT-L在包含3亿噪声标注图像的JFT-300M数据集上训练,另一模型BiT-M则在ImageNet-21k数据集上训练。使用如此大规模数据集使模型能够学习可迁移至各类下游任务的丰富通用视觉表征。

架构与训练超参数: 作者强调选择合适架构和训练超参数的重要性。通过探索模型规模、架构选择与超参数设置间的相互作用来优化预训练性能。通过详细分析确定提升迁移性能的关键因素,确保模型能有效捕捉并泛化视觉特征。

2.2 下游组件

微调协议: 预训练完成后,模型在目标任务上进行微调。BiT采用简洁高效的微调协议,仅需最少超参数调整。作者提出一种在迁移过程中设置超参数的启发式方法,在其多样化评估套件中表现稳健。该方法简化了适配过程,降低了每个新任务超参数优化的计算成本。

适应多数据规模: BiT设计用于在广泛数据规模中保持优异性能,从每类仅单个样本的小样本学习场景到总数达百万样本的大规模数据集。该方法包含在数据稀缺环境下有效微调的策略,确保模型在有限标注数据下仍保持高性能。

3. 实验结果

BiT模型在多种基准测试中评估,以证明其在迁移学习中的有效性。实验涵盖多个数据集和数据规模,突显了该方法的鲁棒性与通用性。

ILSVRC-2012

BiT-L在完整数据集上达到87.5%的Top-1准确率,在每类仅10个样本时仍保持76.8%准确率。

CIFAR-10

BiT-L在完整数据集上取得99.4%准确率,每类10样本时达到97.0%准确率。

CIFAR-100

该模型展现出强劲性能,在完整数据和小样本设置下均保持高准确率。

VTAB基准

BiT-L在19任务视觉任务自适应基准上,仅用每任务1,000样本即达到76.3%准确率。

3.1 小样本学习性能

BiT在小样本学习场景中表现卓越,在每类仅有限标注样本可用时仍保持高性能。例如在ILSVRC-2012数据集上每类10样本时,BiT-L达到76.8%准确率,显著超越基线模型。在CIFAR-10数据集每类10样本时,其准确率高达97.0%。这些