Содержание
1. Введение
Глубокое обучение обычно требует значительных объёмов специфичных для задачи данных и вычислительных ресурсов, что может быть непозволительно дорого для новых задач. Трансферное обучение предлагает решение, заменяя специфичные требования фазой предварительного обучения. В этом подходе сеть сначала обучается на большом универсальном наборе данных, а её веса затем используются для инициализации последующих задач, обеспечивая эффективное обучение с меньшим объёмом данных и сниженными вычислительными затратами. В данной работе пересматривается простая парадигма предобучения на больших размеченных исходных наборах данных и тонкой настройки весов модели для целевых задач. Вместо введения новых компонентов или усложнения, авторы стремятся предоставить минималистичную методику, использующую тщательно отобранные существующие техники для достижения превосходной производительности на широком спектре задач. Эта методика получила название «Большой трансфер» (BiT).
Подход BiT включает предобучение сетей на наборах данных разного масштаба, причём самая большая модель, BiT-L, обучалась на наборе JFT-300M, содержащем 300 миллионов изображений с шумными метками. Перенесённые модели оценивались на различных задачах, включая ILSVRC-2012 от ImageNet, CIFAR-10/100, Oxford-IIIT Pet, Oxford Flowers-102 и Visual Task Adaptation Benchmark (VTAB), который состоит из 19 разнообразных наборов данных. BiT-L демонстрирует передовую производительность на многих из этих задач и показывает выдающуюся эффективность даже при очень ограниченном количестве данных для дообучения. Кроме того, модель BiT-M, предобученная на публичном наборе ImageNet-21k, показывает значительные улучшения по сравнению с популярным предобучением на ILSVRC-2012. Ключевое преимущество BiT заключается в том, что требуется только одна фаза предобучения, а последующая тонкая настройка на целевые задачи вычислительно недорога, в отличие от других передовых методов, которым необходимо обширное обучение на опорных данных, специфичных для конкретных задач.
2. Методология Большого трансфера
Методология Большого трансфера (BiT) построена на нескольких тщательно отобранных компонентах, которые необходимы для создания эффективной сети для трансферного обучения. Эти компоненты классифицируются на элементы для фазы предобучения и фазы тонкой настройки.
2.1 Компоненты фазы предобучения
Масштабное предобучение: BiT использует крупные размеченные наборы данных для предобучения. Самая большая модель, BiT-L, обучается на наборе JFT-300M, который содержит 300 миллионов изображений с шумными метками. Другая модель, BiT-M, обучается на наборе данных ImageNet-21k. Использование таких обширных наборов данных позволяет модели изучить богатые и общие визуальные представления, которые можно переносить на различные целевые задачи.
Архитектура и гиперпараметры обучения: Авторы подчёркивают важность выбора подходящих архитектур и гиперпараметров обучения. Они исследуют взаимосвязь между масштабом модели, выбором архитектуры и настройками гиперпараметров для оптимизации производительности предобучения. Проводится детальный анализ для определения ключевых факторов, способствующих высокой эффективности переноса, гарантируя, что модель может эффективно захватывать и обобщать визуальные признаки.
2.2 Компоненты фазы дообучения
Протокол тонкой настройки: После предобучения модель тонко настраивается на целевую задачу. BiT использует простой и эффективный протокол тонкой настройки, требующий минимальной подстройки гиперпараметров. Авторы предлагают эвристику для установки гиперпараметров во время переноса, которая надёжно работает в их разнообразном наборе оценок. Эта эвристика упрощает процесс адаптации и снижает вычислительные затраты, связанные с оптимизацией гиперпараметров для каждой новой задачи.
Работа с различными режимами данных: BiT разработан для эффективной работы в широком диапазоне режимов данных — от сценариев обучения с малым количеством примеров (вплоть до одного примера на класс) до крупномасштабных наборов данных с общим числом примеров до 1 миллиона. Методология включает стратегии для эффективной тонкой настройки в условиях нехватки данных, обеспечивая высокую производительность модели даже при ограниченном количестве размеченных данных.
3. Экспериментальные результаты
Модели BiT оцениваются на различных тестовых наборах для демонстрации их эффективности в трансферном обучении. Эксперименты охватывают множественные наборы данных и режимы работы, подчёркивая robustness и универсальность подхода.
ILSVRC-2012
BiT-L достигает 87.5% точности top-1 на полном наборе данных и 76.8% всего при 10 примерах на класс.
CIFAR-10
BiT-L достигает 99.4% точности на полном наборе данных и 97.0% при 10 примерах на класс.
CIFAR-100
Модель демонстрирует высокую производительность с высокими показателями точности как в условиях полного набора данных, так и при обучении с малым количеством примеров.
Бенчмарк VTAB
BiT-L достигает 76.3% точности на наборе VTAB из 19 задач, используя всего 1000样本ов на задачу.
3.1 Производительность при обучении с малым количеством примеров
BiT превосходно показывает себя в сценариях обучения с малым количеством примеров, когда доступно лишь ограниченное число размеченных примеров на класс. Например, на ILSVRC-2012 с 10 примерами на класс BiT-L достигает точности 76.8%, значительно превосходя базовые модели. Аналогично, на CIFAR-10 с 10 примерами на класс он достигает точности 97.0%.