Índice
1. Introdução
O aprendizado profundo geralmente requer dados específicos substanciais e recursos computacionais significativos, o que pode ser proibitivamente caro para novas tarefas. O aprendizado por transferência oferece uma solução ao substituir requisitos específicos por uma fase de pré-treinamento. Nesta abordagem, uma rede é primeiro treinada em um grande conjunto de dados genérico, e seus pesos são então usados para inicializar tarefas subsequentes, permitindo aprendizado eficaz com menos dados e demandas computacionais reduzidas. Este artigo revisita o paradigma simples de pré-treinamento em grandes conjuntos de dados supervisionados e ajuste fino dos pesos do modelo em tarefas-alvo. Em vez de introduzir componentes novos ou complexidade, os autores visam fornecer uma receita minimalista que aproveita técnicas existentes cuidadosamente selecionadas para alcançar desempenho excelente em uma ampla gama de tarefas. Esta receita é denominada "Big Transfer" (BiT).
A abordagem BiT envolve pré-treinar redes em conjuntos de dados de várias escalas, com o maior modelo, BiT-L, treinado no conjunto JFT-300M contendo 300 milhões de imagens com rótulos ruidosos. Os modelos transferidos são avaliados em diversas tarefas, incluindo ILSVRC-2012 da ImageNet, CIFAR-10/100, Oxford-IIIT Pet, Oxford Flowers-102 e o Visual Task Adaptation Benchmark (VTAB), que compreende 19 conjuntos de dados diversos. O BiT-L alcança desempenho state-of-the-art em muitas dessas tarefas e demonstra eficácia notável mesmo quando dados subsequentes muito limitados estão disponíveis. Adicionalmente, o modelo BiT-M, pré-treinado no conjunto público ImageNet-21k, mostra melhorias significativas em relação ao popular pré-treinamento ILSVRC-2012. Uma vantagem chave do BiT é que requer apenas uma fase de pré-treinamento, e o subsequente ajuste fino para tarefas downstream é computacionalmente econômico, diferentemente de outros métodos state-of-the-art que necessitam treinamento extensivo em dados de suporte condicionados a tarefas específicas.
2. Metodologia Big Transfer
A metodologia Big Transfer (BiT) é construída sobre alguns componentes cuidadosamente selecionados que são essenciais para criar uma rede eficaz para aprendizado por transferência. Estes componentes são categorizados em elementos upstream (usados durante o pré-treinamento) e downstream (usados durante o ajuste fino).
2.1 Componentes Upstream
Pré-treinamento em Larga Escala: O BiT aproveita conjuntos de dados supervisionados de larga escala para pré-treinamento. O maior modelo, BiT-L, é treinado no conjunto JFT-300M, que contém 300 milhões de imagens com rótulos ruidosos. Outro modelo, BiT-M, é treinado no conjunto ImageNet-21k. O uso de conjuntos de dados tão extensos permite que o modelo aprenda representações visuais ricas e gerais que são transferíveis para várias tarefas downstream.
Arquitetura e Hiperparâmetros de Treinamento: Os autores enfatizam a importância de selecionar arquiteturas apropriadas e hiperparâmetros de treinamento. Eles exploram a interação entre escala do modelo, escolhas de arquitetura e configurações de hiperparâmetros para otimizar o desempenho do pré-treinamento. Análise detalhada é conduzida para identificar os fatores-chave que contribuem para alta performance de transferência, garantindo que o modelo possa capturar e generalizar características visuais efetivamente.
2.2 Componentes Downstream
Protocolo de Ajuste Fino: Após o pré-treinamento, o modelo é ajustado fino na tarefa-alvo. O BiT emprega um protocolo de ajuste fino simples e eficiente que requer mínimo ajuste de hiperparâmetros. Os autores propõem uma heurística para definir hiperparâmetros durante a transferência, que funciona robustamente em sua suíte diversificada de avaliação. Esta heurística simplifica o processo de adaptação e reduz o custo computacional associado à otimização de hiperparâmetros para cada nova tarefa.
Tratamento de Diferentes Regimes de Dados: O BiT é projetado para performar bem em uma ampla gama de regimes de dados, desde cenários de aprendizado com poucos exemplos com apenas um exemplo por classe até conjuntos de dados de larga escala com até 1 milhão de exemplos totais. A metodologia inclui estratégias para ajuste fino efetivo em ambientes com escassez de dados, garantindo que o modelo mantenha alta performance mesmo com dados rotulados limitados.
3. Resultados Experimentais
Os modelos BiT são avaliados em vários benchmarks para demonstrar sua eficácia no aprendizado por transferência. Os experimentos cobrem múltiplos conjuntos de dados e regimes de dados, destacando a robustez e versatilidade da abordagem.
ILSVRC-2012
O BiT-L alcança 87,5% de acurácia top-1 no conjunto completo e 76,8% com apenas 10 exemplos por classe.
CIFAR-10
O BiT-L atinge 99,4% de acurácia no conjunto completo e 97,0% com 10 exemplos por classe.
CIFAR-100
O modelo demonstra forte performance, com altas taxas de acurácia tanto em configurações com dados completos quanto com poucos exemplos.
Benchmark VTAB
O BiT-L alcança 76,3% de acurácia no Visual Task Adaptation Benchmark de 19 tarefas usando apenas 1.000 amostras por tarefa.
3.1 Performance em Aprendizado com Poucos Exemplos
O BiT se destaca em cenários de aprendizado com poucos exemplos, onde apenas um número limitado de exemplos rotulados está disponível por classe. Por exemplo, no ILSVRC-2012 com 10 exemplos por classe, o BiT-L alcança 76,8% de acurácia, superando significativamente os modelos baseline. Similarmente, no CIFAR-10 com 10 exemplos por classe, atinge 97,0% de acurácia. Esses resultados demonstram a capacidade do modelo de generalizar efetivamente mesmo com dados muito limitados.