Pemindahan Besar (BiT): Pembelajaran Perwakilan Visual Umum

Isi Kandungan

1. Pengenalan
2. Kaedah Pemindahan Besar
3. Keputusan Eksperimen
4. Pandangan Utama
5. Kesimpulan

1. Pengenalan

Pembelajaran mendalam biasanya memerlukan data khusus tugas dan sumber pengiraan yang besar, yang mungkin terlalu mahal untuk tugas baharu. Pemindahan pembelajaran menawarkan penyelesaian dengan menggantikan keperluan khusus tugas dengan fasa pra-latihan. Dalam pendekatan ini, rangkaian pertama kali dilatih pada set data generik yang besar, dan pemberatnya kemudian digunakan untuk memulakan tugas susulan, membolehkan pembelajaran berkesan dengan titik data yang lebih sedikit dan keperluan pengiraan yang berkurangan. Kertas kerja ini mengkaji semula paradigma mudah pra-latihan pada set data sumber berpengawasan besar dan penalaan halus pemberat model pada tugas sasaran. Daripada memperkenalkan komponen atau kerumitan baharu, penulis bertujuan memberikan resipi minimalis yang memanfaatkan teknik sedia ada terpilih untuk mencapai prestasi cemerlang merentas pelbagai tugas. Resipi ini dinamakan "Pemindahan Besar" (BiT).

Pendekatan BiT melibatkan pra-latihan rangkaian pada set data pelbagai skala, dengan model terbesar, BiT-L, dilatih pada set data JFT-300M yang mengandungi 300 juta imej berlabel bising. Model yang dipindahkan dinilai pada pelbagai tugas, termasuk ILSVRC-2012 ImageNet, CIFAR-10/100, Oxford-IIIT Pet, Oxford Flowers-102, dan Penanda Aras Penyesuaian Tugas Visual (VTAB) yang merangkumi 19 set data berbeza. BiT-L mencapai prestasi terkini pada banyak tugas ini dan menunjukkan keberkesanan luar biase walaupun dengan data hiliran yang sangat terhad. Tambahan pula, model BiT-M yang dilatih awal pada set data awam ImageNet-21k menunjukkan peningkatan ketara berbanding pra-latihan ILSVRC-2012 popular. Kelebihan utama BiT ialah ia hanya memerlukan satu fasa pra-latihan, dan penalaan halus seterusnya kepada tugas hiliran adalah murah dari segi pengiraan, tidak seperti kaedah terkini lain yang memerlukan latihan meluas pada data sokongan bersyaratkan tugas tertentu.

2. Kaedah Pemindahan Besar

Kaedah Pemindahan Besar (BiT) dibina berdasarkan beberapa komponen terpilih yang penting untuk mencipta rangkaian berkesan untuk pemindahan pembelajaran. Komponen ini dikategorikan kepada elemen hulu (digunakan semasa pra-latihan) dan hilir (digunakan semasa penalaan halus).

2.1 Komponen Hulu

Pra-Latihan Skala Besar: BiT memanfaatkan set data berpengawasan berskala besar untuk pra-latihan. Model terbesar, BiT-L, dilatih pada set data JFT-300M yang mengandungi 300 juta imej dengan label bising. Model lain, BiT-M, dilatih pada set data ImageNet-21k. Penggunaan set data meluas sedemikian membolehkan model mempelajari perwakilan visual kaya dan umum yang boleh dipindahkan ke pelbagai tugas hiliran.

Seni Bina dan Hiperparameter Latihan: Penulis menekankan kepentingan memilih seni bina dan hiperparameter latihan sesuai. Mereka meneroka interaksi antara skala model, pilihan seni bina, dan tetapan hiperparameter untuk mengoptimumkan prestasi pra-latihan. Analisis terperinci dijalankan untuk mengenal pasti faktor utama yang menyumbang kepada prestasi pemindahan tinggi, memastikan model dapat menangkap dan menggeneralisasi ciri visual dengan berkesan.

2.2 Komponen Hilir

Protokol Penalaan Halus: Selepas pra-latihan, model ditala halus pada tugas sasaran. BiT menggunakan protokol penalaan halus mudah dan cekap yang memerlukan penyelarasan hiperparameter minimum. Penulis mencadangkan heuristik untuk menetapkan hiperparameter semasa pemindahan, yang berfungsi secara teguh merentas suite penilaian pelbagai mereka. Heuristik ini memudahkan proses penyesuaian dan mengurangkan kos pengiraan berkaitan pengoptimuman hiperparameter untuk setiap tugas baharu.

Pengendalian Rejim Data Pelbagai: BiT direka untuk berprestasi baik merentas pelbagai rejim data, dari senario pembelajaran sedikit-contoh dengan hanya satu contoh per kelas hingga set data berskala besar dengan sehingga 1 juta jumlah contoh. Kaedah ini termasuk strategi untuk penalaan halus berkesan dalam persekitaran kekurangan data, memastikan model mengekalkan prestasi tinggi walaupun dengan data berlabel terhad.

3. Keputusan Eksperimen

Model BiT dinilai pada pelbagai penanda aras untuk menunjukkan keberkesanannya dalam pemindahan pembelajaran. Eksperimen merangkumi pelbagai set data dan rejim data, menonjolkan keteguhan dan kepelbagaian pendekatan.

ILSVRC-2012

BiT-L mencapai 87.5% ketepatan top-1 pada set data penuh dan 76.8% dengan hanya 10 contoh per kelas.

CIFAR-10

BiT-L mencapai 99.4% ketepatan pada set data penuh dan 97.0% dengan 10 contoh per kelas.

CIFAR-100

Model menunjukkan prestasi kukuh, dengan kadar ketepatan tinggi dalam kedua-dua tetapan data penuh dan sedikit-contoh.

Penanda Aras VTAB

BiT-L mencapai 76.3% ketepatan pada Penanda Aras Penyesuaian Tugas Visual 19-tugas menggunakan hanya 1,000 sampel per tugas.

3.1 Prestasi pada Pembelajaran Sedikit-Contoh

BiT cemerlang dalam senario pembelajaran sedikit-contoh, di mana hanya bilangan terhad contoh berlabel tersedia per kelas. Sebagai contoh, pada ILSVRC-2012 dengan 10 contoh per kelas, BiT-L mencapai 76.8% ketepatan, mengatasi model asas dengan ketara. Begitu juga, pada CIFAR-10 dengan 10 contoh per kelas, ia mencapai 97.0% ketepatan. Pencapaian ini menunjukkan keupayaan BiT untuk menyesuaikan diri dengan berkesan walaupun dengan data latihan yang sangat sedikit, menjadikannya amat sesuai untuk aplikasi dunia sebenar di mana data berlabel adalah terhad.