1. 서론
딥러닝은 일반적으로 상당한 양의 작업별 데이터와 컴퓨팅 자원을 필요로 하며, 이는 새로운 작업에 대해 과도한 비용이 발생할 수 있습니다. 전이 학습은 작업별 요구사항을 사전 학습 단계로 대체하여 해결책을 제시합니다. 이 접근법에서는 먼저 대규모 일반 데이터셋으로 네트워크를 학습시킨 후, 해당 가중치를 후속 작업의 초기화에 사용하여 더 적은 데이터 포인트와 감소된 컴퓨팅 요구량으로 효과적인 학습을 가능하게 합니다. 본 논문은 대규모 지도 학습 소스 데이터셋으로 사전 학습을 수행하고 대상 작업에서 모델 가중치를 미세 조정하는 단순한 패러다임을 재검토합니다. 저자들은 새로운 구성 요소나 복잡성을 도입하기보다는 신중하게 선별된 기존 기술들을 활용하여 다양한 작업에서 우수한 성능을 달성하는 최소주의적 방법론을 제공하는 것을 목표로 합니다. 이 방법론을 "빅 트랜스퍼(BiT)"라고 명명합니다.
BiT 접근법은 다양한 규모의 데이터셋으로 네트워크를 사전 학습하는 것을 포함하며, 가장 큰 모델인 BiT-L은 3억 개의 노이즈 라벨이 포함된 이미지로 구성된 JFT-300M 데이터셋으로 학습되었습니다. 전이된 모델들은 ImageNet의 ILSVRC-2012, CIFAR-10/100, Oxford-IIIT Pet, Oxford Flowers-102, 그리고 19개의 다양한 데이터셋으로 구성된 Visual Task Adaptation Benchmark(VTAB)를 포함한 다양한 작업에서 평가됩니다. BiT-L은 이러한 작업들 중 많은 부분에서 최첨단 성능을 달성하며, 하류 작업 데이터가 매우 제한적으로 제공되는 상황에서도 놀라운 효과성을 보여줍니다. 추가로, 공개된 ImageNet-21k 데이터셋으로 사전 학습된 BiT-M 모델은 널리 사용되는 ILSVRC-2012 사전 학습 대비 상당한 향상을 보여줍니다. BiT의 주요 장점은 단 한 번의 사전 학습 단계만 필요하며, 이후 하류 작업에 대한 미세 조정은 컴퓨팅 비용이 저렴하다는 점입니다. 이는 특정 작업에 조건부인 지원 데이터에 대한 광범위한 학습이 필요한 다른 최첨단 방법론들과 대비됩니다.
2. 빅 트랜스퍼 방법론
빅 트랜스퍼(BiT) 방법론은 전이 학습을 위한 효과적인 네트워크 생성에 필수적인 몇 가지 신중하게 선별된 구성 요소들을 기반으로 합니다. 이러한 구성 요소들은 업스트림(사전 학습 중 사용)과 다운스트림(미세 조정 중 사용) 요소로 분류됩니다.
2.1 업스트림 구성 요소
대규모 사전 학습: BiT는 대규모 지도 학습 데이터셋을 사전 학습에 활용합니다. 가장 큰 모델인 BiT-L은 노이즈 라벨이 포함된 3억 장의 이미지로 구성된 JFT-300M 데이터셋으로 학습됩니다. 다른 모델인 BiT-M은 ImageNet-21k 데이터셋으로 학습됩니다. 이러한 방대한 데이터셋의 사용은 모델이 다양한 하류 작업으로 전이 가능한 풍부하고 일반적인 시각 표현을 학습할 수 있게 합니다.
아키텍처 및 학습 하이퍼파라미터: 저자들은 적절한 아키텍처와 학습 하이퍼파라미터 선택의 중요성을 강조합니다. 그들은 모델 규모, 아키텍처 선택, 그리고 하이퍼파라미터 설정 간의 상호작용을 탐구하여 사전 학습 성능을 최적화합니다. 높은 전이 성능에 기여하는 핵심 요소들을 식별하기 위한 상세한 분석이 수행되어, 모델이 시각 특징을 효과적으로 포착하고 일반화할 수 있도록 합니다.
2.2 다운스트림 구성 요소
미세 조정 프로토콜: 사전 학습 후, 모델은 대상 작업에 대해 미세 조정됩니다. BiT는 최소한의 하이퍼파라미터 조정만을 요구하는 단순하고 효율적인 미세 조정 프로토콜을 사용합니다. 저자들은 전이 과정에서 하이퍼파라미터를 설정하기 위한 경험적 법칙을 제안하며, 이는 그들의 다양한 평가 세트에서 강건하게 작동합니다. 이 경험적 법칙은 적응 과정을 단순화하고 각각의 새로운 작업에 대한 하이퍼파라미터 최적화와 관련된 컴퓨팅 비용을 줄입니다.
다양한 데이터 체계 처리: BiT는 클래스당 단 하나의 예시만 있는 소수 샷 학습 시나리오부터 총 100만 개의 예시가 있는 대규모 데이터셋에 이르기까지 광범위한 데이터 체계에서 우수한 성능을 발휘하도록 설계되었습니다. 이 방법론에는 데이터가 부족한 환경에서도 효과적인 미세 조정을 위한 전략이 포함되어, 제한된 라벨 데이터로도 모델이 높은 성능을 유지하도록 보장합니다.
3. 실험 결과
BiT 모델들은 전이 학습에서의 효과성을 입증하기 위해 다양한 벤치마크에서 평가됩니다. 실험은 여러 데이터셋과 데이터 체계를 포괄하며, 접근법의 강건성과 다용도성을 부각시킵니다.
ILSVRC-2012
BiT-L은 전체 데이터셋에서 87.5%의 상위-1 정확도를 달성하며, 클래스당 10개의 예시만으로는 76.8%를 기록합니다.
CIFAR-10
BiT-L은 전체 데이터셋에서 99.4%의 정확도를 달성하며, 클래스당 10개의 예시로는 97.0%를 기록합니다.
CIFAR-100
모델은 전체 데이터 및 소수 샷 설정 모두에서 높은 정확률로 강력한 성능을 보여줍니다.
VTAB 벤치마크
BiT-L은 작업당 1,000개의 샘플만 사용하여 19개 작업으로 구성된 Visual Task Adaptation Benchmark에서 76.3%의 정확도를 달성합니다.
3.1 소수 샷 학습 성능
BiT는 클래스당 제한된 수의 라벨 예시만 사용 가능한 소수 샷 학습 시나리오에서 탁월한 성능을 발휘합니다. 예를 들어, 클래스당 10개 예시를 사용한 ILSVRC-2012에서 BiT-L은 76.8%의 정확도를 달성하여 기준 모델들을 크게 능가합니다. 유사하게, 클래스당 10개 예시를 사용한 CIFAR-10에서는 97.0%의 정확도에 도달합니다.