Üretici Çekişmeli Ağlar (GAN'lar) - Derin Öğrenme Çerçevesi

Özet

Çekişmeli bir süreç yoluyla üretici modelleri tahmin etmek için yeni bir çerçeve öneriyoruz. Bu çerçevede, veri dağılımını yakalayan bir üretici model G ile bir örneğin eğitim verisinden mi yoksa G'den mi geldiğini tahmin eden ayırt edici bir model D'yi eşzamanlı olarak eğitiyoruz. G'nin eğitim prosedürü, D'nin hata yapma olasılığını en üst düzeye çıkarmaktır. Bu çerçeve, bir minimax iki oyunculu oyuna karşılık gelir.

Keyfi G ve D fonksiyonları uzayında, G'nin eğitim verisi dağılımını geri kazanması ve D'nin her yerde 1/2'ye eşit olmasıyla benzersiz bir çözüm bulunur. G ve D'nin çok katmanlı algılayıcılarla tanımlandığı durumda, tüm sistem geri yayılımla eğitilebilir. Örneklerin eğitimi veya oluşturulması sırasında herhangi bir Markov zincirine veya açık yaklaşık çıkarım ağlarına gerek yoktur. Deneyler, oluşturulan örneklerin nitel ve nicel değerlendirmesi yoluyla çerçevenin potansiyelini göstermektedir.

1. Giriş

Derin öğrenmenin vaadi, doğal görüntüler, konuşma içeren ses dalgaları ve doğal dil derlemlerindeki semboller gibi yapay zeka uygulamalarında karşılaşılan veri türleri üzerinde olasılık dağılımlarını temsil eden zengin, hiyerarşik modeller keşfetmektir. Şu ana kadar derin öğrenmedeki en çarpıcı başarılar, genellikle yüksek boyutlu, zengin bir duyusal girdiyi bir sınıf etiketine eşleyen ayırt edici modelleri içermiştir. Bu çarpıcı başarılar, özellikle iyi davranışlı bir gradyana sahip olan parçalı doğrusal birimleri kullanarak, temel olarak geri yayılım ve dropout algoritmalarına dayanmaktadır.

Derin üretici modeller, maksimum olabilirlik tahmini ve ilgili stratejilerde ortaya çıkan birçok zorlu olasılıksal hesaplamanın yaklaşık olarak tahmin edilmesindeki zorluk ve üretici bağlamda parçalı doğrusal birimlerin faydalarından yararlanmadaki zorluk nedeniyle daha az etkiye sahip olmuştur. Bu zorlukları bertaraf eden yeni bir üretici model tahmin prosedürü öneriyoruz.

Sahtekâr-Polis Benzetmesi

Önerilen çekişmeli ağlar çerçevesinde, üretici model bir rakibe karşı mücadele eder: bir örneğin model dağılımından mı yoksa veri dağılımından mı geldiğini belirlemeyi öğrenen ayırt edici bir model. Üretici model, sahte para üretmeye ve tespit edilmeden kullanmaya çalışan bir sahtekâr ekibine benzetilebilirken, ayırt edici model sahte parayı tespit etmeye çalışan polise benzetilebilir. Bu oyundaki rekabet, sahteler gerçeklerden ayırt edilemez hale gelene kadar her iki tarafı da yöntemlerini geliştirmeye zorlar.

Bu çerçeve, birçok model ve optimizasyon algoritması türü için spesifik eğitim algoritmaları sağlayabilir. Bu makalede, üretici modelin rastgele gürültüyü çok katmanlı bir algılayıcıdan geçirerek örnekler oluşturduğu ve ayırt edici modelin de bir çok katmanlı algılayıcı olduğu özel durumu inceliyoruz. Bu özel durumu çekişmeli ağlar olarak adlandırıyoruz. Bu durumda, her iki modeli yalnızca oldukça başarılı geri yayılım ve dropout algoritmalarını kullanarak eğitebilir ve üretici modelden örneklemeyi yalnızca ileri yayılım kullanarak gerçekleştirebiliriz. Yaklaşık çıkarım veya Markov zincirleri gerekli değildir.

2. İlgili Çalışmalar

Gizli değişkenli yönlü grafiksel modellere bir alternatif, kısıtlanmış Boltzmann makineleri (RBM'ler), derin Boltzmann makineleri (DBM'ler) ve sayısız varyantları gibi gizli değişkenli yönsüz grafiksel modellerdir. Bu tür modellerdeki etkileşimler, rastgele değişkenlerin tüm durumları üzerinden küresel bir toplama/entegrasyon ile normalize edilen, normalize edilmemiş potansiyel fonksiyonların çarpımı olarak temsil edilir.

Bu miktar (bölüşüm fonksiyonu) ve gradyanı, en basit örnekler dışında tümü için zorludur, ancak Markov zinciri Monte Carlo (MCMC) yöntemleriyle tahmin edilebilirler. Karışım, MCMC'ye dayanan öğrenme algoritmaları için önemli bir problem oluşturur.

Derin İnanç Ağları (DBN'ler)

Derin inanç ağları (DBN'ler), tek bir yönsüz katman ve birkaç yönlü katman içeren melez modellerdir. Hızlı bir yaklaşık katman bazlı eğitim kriteri mevcut olsa da, DBN'ler hem yönsüz hem de yönlü modellerle ilişkili hesaplama zorluklarını beraberinde getirir.

Alternatif Kriterler

Alternatif kriterler yaklaşık olarak tahmin etmez veya sınırlamaz