Generative Adversarial Networks (GANs) - Framework di Deep Learning

Abstract

Proponiamo un nuovo framework per la stima di modelli generativi attraverso un processo adversarial, in cui addestriamo simultaneamente due modelli: un modello generativo G che cattura la distribuzione dei dati, e un modello discriminativo D che stima la probabilità che un campione provenga dai dati di training piuttosto che da G. La procedura di training per G consiste nel massimizzare la probabilità che D commetta un errore. Questo framework corrisponde a un gioco a somma zero tra due giocatori.

Nello spazio delle funzioni arbitrarie G e D, esiste una soluzione unica, con G che recupera la distribuzione dei dati di training e D uguale a 1/2 ovunque. Nel caso in cui G e D siano definiti da perceptron multistrato, l'intero sistema può essere addestrato con backpropagation. Non è necessaria alcuna catena di Markov o rete di inferenza approssimata durante il training o la generazione di campioni. Gli esperimenti dimostrano il potenziale del framework attraverso valutazioni qualitative e quantitative dei campioni generati.

1. Introduzione

La promessa del deep learning è di scoprire modelli gerarchici complessi che rappresentino distribuzioni di probabilità per i tipi di dati incontrati nelle applicazioni di intelligenza artificiale, come immagini naturali, forme d'onda audio contenenti parlato e simboli in corpora linguistici. Finora, i successi più eclatanti nel deep learning hanno coinvolto modelli discriminativi, generalmente quelli che mappano un input sensoriale complesso e ad alta dimensionalità a un'etichetta di classe.

I modelli generativi profondi hanno avuto un impatto minore, a causa della difficoltà nell'approssimare molti calcoli probabilistici intrattabili che emergono nella stima di massima verosimiglianza e nelle strategie correlate, e per la difficoltà di sfruttare i vantaggi delle unità lineari a tratti nel contesto generativo. Proponiamo una nuova procedura di stima per modelli generativi che aggira queste difficoltà.

L'Analogia Falsario-Polizia

Nel framework adversarial proposto, il modello generativo si confronta con un avversario: un modello discriminativo che impara a determinare se un campione proviene dalla distribuzione del modello o dai dati reali. Il modello generativo può essere paragonato a una banda di falsari, che cerca di produrre moneta falsa e usarla senza essere scoperta, mentre il modello discriminativo è analogo alla polizia, che tenta di individuare la valuta contraffatta. La competizione in questo gioco spinge entrambe le parti a migliorare i propri metodi finché i falsi non diventano indistinguibili dagli originali.

Questo framework può produrre algoritmi di training specifici per molti tipi di modelli e algoritmi di ottimizzazione. In questo articolo esploriamo il caso speciale in cui il modello generativo produce campioni processando rumore casuale attraverso un perceptron multistrato, e il modello discriminativo è anch'esso un perceptron multistrato. Ci riferiamo a questo caso speciale come adversarial nets. In questo caso, possiamo addestrare entrambi i modelli utilizzando esclusivamente gli algoritmi di backpropagation e dropout, e campionare dal modello generativo usando solo la propagazione in avanti. Non sono necessarie inferenze approssimate o catene di Markov.

2. Lavori Correlati

Un'alternativa ai modelli grafici diretti con variabili latenti sono i modelli grafici non diretti con variabili latenti, come le Restricted Boltzmann Machines (RBM), le Deep Boltzmann Machines (DBM) e le loro numerose varianti. Le interazioni in tali modelli sono rappresentate come prodotto di funzioni potenziali non normalizzate, normalizzate da una sommatoria/integrazione globale su tutti gli stati delle variabili casuali.

Questa quantità (la funzione di partizione) e il suo gradiente sono intrattabili per tutte tranne le istanze più banali, sebbene possano essere stimati con metodi Markov Chain Monte Carlo (MCMC). Il mixing rappresenta un problema significativo per gli algoritmi di apprendimento che si basano su MCMC.

Deep Belief Networks (DBN)

Le Deep Belief Networks (DBN) sono modelli ibridi contenenti un singolo strato non diretto e diversi strati diretti. Sebbene esista un criterio di training approssimato strato per strato, le DBN comportano le difficoltà computazionali associate sia ai modelli non diretti che a quelli diretti.

Criteri Alternativi

Criteri alternativi che non approssimano o delimitano la verosimiglianza sono stati proposti, come lo score matching e il noise-contrastive estimation (NCE). Entrambi richiedono che la densità di probabilità sia analiticamente specificata fino a una costante di normalizzazione. Notare che per molte architetture di deep learning interessanti, è estremamente difficile calcolare la verosimiglianza, ma è molto facile generare campioni. Il generative adversarial network framework non richiede una densità esplicita.