Tabla de Contenidos
1. Introducción
El aprendizaje profundo generalmente requiere datos específicos sustanciales y recursos computacionales considerables, lo que puede resultar prohibitivamente costoso para nuevas tareas. El aprendizaje por transferencia ofrece una solución al reemplazar estos requisitos específicos con una fase de pre-entrenamiento. En este enfoque, una red se entrena primero en un conjunto de datos genérico de gran escala, y sus pesos luego se utilizan para inicializar tareas posteriores, permitiendo un aprendizaje efectivo con menos puntos de datos y demandas computacionales reducidas. Este artículo revisita el paradigma simple de pre-entrenamiento en grandes conjuntos de datos fuente supervisados y el ajuste fino de los pesos del modelo en tareas objetivo. En lugar de introducir componentes novedosos o complejidad, los autores buscan proporcionar una receta minimalista que aproveche técnicas existentes cuidadosamente seleccionadas para lograr un rendimiento excelente en una amplia gama de tareas. Esta metodología se denomina "Transferencia Masiva" (BiT).
El enfoque BiT implica pre-entrenar redes en conjuntos de datos de diversas escalas, con el modelo más grande, BiT-L, entrenado en el conjunto JFT-300M que contiene 300 millones de imágenes con etiquetas ruidosas. Los modelos transferidos se evalúan en diversas tareas, incluyendo ILSVRC-2012 de ImageNet, CIFAR-10/100, Oxford-IIIT Pet, Oxford Flowers-102 y el Benchmark de Adaptación a Tareas Visuales (VTAB), que comprende 19 conjuntos de datos diversos. BiT-L logra un rendimiento de vanguardia en muchas de estas tareas y demuestra una efectividad notable incluso cuando hay datos posteriores muy limitados. Adicionalmente, el modelo BiT-M, pre-entrenado en el conjunto público ImageNet-21k, muestra mejoras significativas sobre el pre-entrenamiento popular en ILSVRC-2012. Una ventaja clave de BiT es que requiere solo una fase de pre-entrenamiento, y el posterior ajuste fino a tareas específicas es computacionalmente económico, a diferencia de otros métodos de vanguardia que necesitan entrenamiento extensivo en datos de soporte condicionados a tareas específicas.
2. Metodología de Transferencia Masiva
La metodología de Transferencia Masiva (BiT) se construye sobre algunos componentes cuidadosamente seleccionados que son esenciales para crear una red efectiva para aprendizaje por transferencia. Estos componentes se categorizan en elementos de flujo ascendente (utilizados durante el pre-entrenamiento) y de flujo descendente (utilizados durante el ajuste fino).
2.1 Componentes de Flujo Ascendente
Pre-entrenamiento a Gran Escala: BiT aprovecha conjuntos de datos supervisados de gran escala para pre-entrenamiento. El modelo más grande, BiT-L, se entrena en el conjunto JFT-300M, que contiene 300 millones de imágenes con etiquetas ruidosas. Otro modelo, BiT-M, se entrena en el conjunto ImageNet-21k. El uso de conjuntos de datos tan extensivos permite al modelo aprender representaciones visuales ricas y generales que son transferibles a diversas tareas posteriores.
Arquitectura e Hiperparámetros de Entrenamiento: Los autores enfatizan la importancia de seleccionar arquitecturas apropiadas e hiperparámetros de entrenamiento. Exploran la interacción entre la escala del modelo, las opciones de arquitectura y las configuraciones de hiperparámetros para optimizar el rendimiento del pre-entrenamiento. Se realiza un análisis detallado para identificar los factores clave que contribuyen al alto rendimiento de transferencia, asegurando que el modelo pueda capturar y generalizar características visuales efectivamente.
2.2 Componentes de Flujo Descendente
Protocolo de Ajuste Fino: Después del pre-entrenamiento, el modelo se ajusta finamente en la tarea objetivo. BiT emplea un protocolo de ajuste fino simple y eficiente que requiere una mínima configuración de hiperparámetros. Los autores proponen una heurística para establecer hiperparámetros durante la transferencia, que funciona de manera robusta en su diversa suite de evaluación. Esta heurística simplifica el proceso de adaptación y reduce el costo computacional asociado con la optimización de hiperparámetros para cada nueva tarea.
Manejo de Diversos Regímenes de Datos: BiT está diseñado para funcionar bien en una amplia gama de regímenes de datos, desde escenarios de aprendizaje con pocos ejemplos con tan solo un ejemplo por clase hasta conjuntos de datos a gran escala con hasta 1 millón de ejemplos en total. La metodología incluye estrategias para un ajuste fino efectivo en entornos con escasez de datos, asegurando que el modelo mantenga un alto rendimiento incluso con datos etiquetados limitados.
3. Resultados Experimentales
Los modelos BiT se evalúan en varios benchmarks para demostrar su efectividad en aprendizaje por transferencia. Los experimentos cubren múltiples conjuntos de datos y regímenes de datos, destacando la robustez y versatilidad del enfoque.
ILSVRC-2012
BiT-L alcanza 87.5% de precisión top-1 en el conjunto completo y 76.8% con solo 10 ejemplos por clase.
CIFAR-10
BiT-L logra 99.4% de precisión en el conjunto completo y 97.0% con 10 ejemplos por clase.
CIFAR-100
El modelo muestra un rendimiento sólido, con altas tasas de precisión tanto en configuraciones con datos completos como con pocos ejemplos.
Benchmark VTAB
BiT-L alcanza 76.3% de precisión en el Benchmark de Adaptación a Tareas Visuales de 19 tareas usando solo 1,000 muestras por tarea.
3.1 Rendimiento en Aprendizaje con Pocos Ejemplos
BiT sobresale en escenarios de aprendizaje con pocos ejemplos, donde solo hay disponible un número limitado de ejemplos etiquetados por clase. Por ejemplo, en ILSVRC-2012 con 10 ejemplos por clase, BiT-L logra 76.8% de precisión, superando significativamente a los modelos base. De manera similar, en CIFAR-10 con 10 ejemplos por clase, alcanza 97.0% de precisión.