Big Transfer (BiT) : Apprentissage de Représentations Visuelles Génériques

BiT est une méthode simple mais efficace pour l'apprentissage de représentations visuelles via pré-entraînement à grande échelle et affinage, obtenant des performances de pointe sur divers jeux de données.
aipowertoken.com | PDF Size: 3.3 MB

1. Introduction

L'apprentissage profond nécessite généralement des données spécifiques importantes et des ressources computationnelles substantielles, ce qui peut s'avérer prohibitif pour de nouvelles tâches. Le transfert d'apprentissage apporte une solution en remplaçant ces exigences par une phase de pré-entraînement. Cette approche consiste à entraîner initialement un réseau sur un vaste jeu de données générique, puis à utiliser ses poids pour initialiser des tâches ultérieures, permettant un apprentissage efficace avec moins de données et des besoins computationnels réduits. Cet article revisite le paradigme simple du pré-entraînement sur de grands jeux de données supervisées sources et de l'affinage des poids du modèle sur des tâches cibles. Plutôt que d'introduire de nouveaux composants ou complexités, les auteurs visent à fournir une recette minimaliste exploitant des techniques existantes soigneusement sélectionnées pour obtenir d'excellentes performances sur une large gamme de tâches. Cette méthode est intitulée « Big Transfer » (BiT).

L'approche BiT implique un pré-entraînement des réseaux sur des jeux de données de différentes échelles, le plus grand modèle, BiT-L, étant entraîné sur le jeu de données JFT-300M contenant 300 millions d'images étiquetées de manière bruitée. Les modèles transférés sont évalués sur diverses tâches, incluant ILSVRC-2012 d'ImageNet, CIFAR-10/100, Oxford-IIIT Pet, Oxford Flowers-102 et le Visual Task Adaptation Benchmark (VTAB), qui comprend 19 jeux de données variés. BiT-L atteint des performances de pointe sur nombre de ces tâches et démontre une efficacité remarquable même lorsque les données en aval sont très limitées. Par ailleurs, le modèle BiT-M, pré-entraîné sur le jeu de données public ImageNet-21k, montre des améliorations significatives par rapport au pré-entraînement ILSVRC-2012 classique. Un avantage clé de BiT est qu'il ne nécessite qu'une seule phase de pré-entraînement, et l'affinage ultérieur sur les tâches cibles est peu coûteux en calcul, contrairement à d'autres méthodes de pointe qui requièrent un entraînement extensif sur des données de support conditionnées à des tâches spécifiques.

2. Méthodologie Big Transfer

La méthodologie Big Transfer (BiT) repose sur quelques composants soigneusement sélectionnés, essentiels pour créer un réseau efficace pour le transfert d'apprentissage. Ces éléments sont catégorisés en composants amont (utilisés pendant le pré-entraînement) et aval (utilisés pendant l'affinage).

2.1 Composants Amont

Pré-entraînement à Grande Échelle : BiT exploite de grands jeux de données supervisés pour le pré-entraînement. Le plus grand modèle, BiT-L, est entraîné sur le jeu de données JFT-300M, qui contient 300 millions d'images avec des étiquettes bruitées. Un autre modèle, BiT-M, est entraîné sur le jeu de données ImageNet-21k. L'utilisation de jeux de données aussi étendus permet au modèle d'apprendre des représentations visuelles riches et génériques, transférables à diverses tâches aval.

Architecture et Hyperparamètres d'Entraînement : Les auteurs soulignent l'importance de sélectionner des architectures et des hyperparamètres d'entraînement appropriés. Ils explorent l'interaction entre l'échelle du modèle, les choix architecturaux et les réglages des hyperparamètres pour optimiser les performances du pré-entraînement. Une analyse détaillée est menée pour identifier les facteurs clés contribuant à une haute performance en transfert, garantissant que le modèle peut capturer et généraliser efficacement les caractéristiques visuelles.

2.2 Composants Aval

Protocole d'Affinage : Après le pré-entraînement, le modèle est affiné sur la tâche cible. BiT emploie un protocole d'affinage simple et efficace nécessitant un réglage minimal des hyperparamètres. Les auteurs proposent une heuristique pour définir les hyperparamètres lors du transfert, qui fonctionne de manière robuste sur leur suite d'évaluation diversifiée. Cette heuristique simplifie le processus d'adaptation et réduit le coût computationnel associé à l'optimisation des hyperparamètres pour chaque nouvelle tâche.

Gestion des Régimes de Données Variés : BiT est conçu pour performer sur une large gamme de régimes de données, depuis les scénarios d'apprentissage à few-shot avec aussi peu qu'un exemple par classe jusqu'aux jeux de données à grande échelle comportant jusqu'à 1 million d'exemples au total. La méthodologie inclut des stratégies pour un affinage efficace dans des environnements pauvres en données, garantissant que le modèle maintient des performances élevées même avec des données étiquetées limitées.

3. Résultats Expérimentaux

Les modèles BiT sont évalués sur divers benchmarks pour démontrer leur efficacité en transfert d'apprentissage. Les expériences couvrent de multiples jeux de données et régimes de données, mettant en lumière la robustesse et la polyvalence de l'approche.

ILSVRC-2012

BiT-L atteint une précision top-1 de 87,5 % sur le jeu de données complet et de 76,8 % avec seulement 10 exemples par classe.

CIFAR-10

BiT-L obtient une précision de 99,4 % sur le jeu de données complet et de 97,0 % avec 10 exemples par classe.

CIFAR-100

Le modèle démontre de solides performances, avec des taux de précision élevés dans les configurations avec données complètes et à few-shot.

Benchmark VTAB

BiT-L atteint une précision de 76,3 % sur le Visual Task Adaptation Benchmark à 19 tâches en utilisant seulement 1 000 échantillons par tâche.

3.1 Performance en Apprentissage à Few-Shot

BiT excelle dans les scénarios d'apprentissage à few-shot, où seul un nombre limité d'exemples étiquetés est disponible par classe. Par exemple, sur ILSVRC-2012 avec 10 exemples par classe, BiT-L atteint 76,8 % de précision, surpassant significativement les modèles de référence. De même, sur CIFAR-10 avec 10 exemples par classe, il atteint 97,0 % de précision. Ces résultats démontrent la capacité du modèle à généraliser efficacement à partir de très peu d'exemples.