Generative Adversarial Networks (GANs) – Deep-Learning-Framework

Zusammenfassung

Wir schlagen ein neues Framework zur Schätzung generativer Modelle durch einen adversellen Prozess vor, bei dem wir zwei Modelle gleichzeitig trainieren: ein generatives Modell G, das die Datenverteilung erfasst, und ein diskriminierendes Modell D, das die Wahrscheinlichkeit schätzt, dass eine Stichprobe aus den Trainingsdaten stammt und nicht von G. Das Trainingsverfahren für G besteht darin, die Wahrscheinlichkeit eines Fehlers von D zu maximieren. Dieses Framework entspricht einem Minimax-Zweispieler-Spiel.

Im Raum der beliebigen Funktionen G und D existiert eine eindeutige Lösung, wobei G die Trainingsdatenverteilung wiederherstellt und D überall gleich 1/2 ist. Wenn G und D durch mehrschichtige Perzeptren definiert sind, kann das gesamte System mit Backpropagation trainiert werden. Es sind weder Markov-Ketten noch entfaltete approximative Inferenznetzwerke während des Trainings oder der Generierung von Stichproben erforderlich. Experimente demonstrieren das Potenzial des Frameworks durch qualitative und quantitative Auswertung der generierten Stichproben.

1. Einleitung

Das Versprechen von Deep Learning ist die Entdeckung reichhaltiger, hierarchischer Modelle, die Wahrscheinlichkeitsverteilungen über die Arten von Daten repräsentieren, die in KI-Anwendungen vorkommen, wie natürliche Bilder, Audiowellenformen mit Sprache und Symbole in natürlichen Sprachkorpora. Bisher betrafen die beeindruckendsten Erfolge im Deep Learning diskriminierende Modelle, meist solche, die eine hochdimensionale, reiche sensorische Eingabe auf ein Klassenlabel abbilden. Diese bemerkenswerten Erfolge basieren primär auf Backpropagation- und Dropout-Algorithmen unter Verwendung stückweise linearer Einheiten, die besonders gutmütige Gradienten aufweisen.

Tiefe generative Modelle hatten weniger Einfluss, aufgrund der Schwierigkeit, viele schwer handhabbare probabilistische Berechnungen zu approximieren, die bei der Maximum-Likelihood-Schätzung und verwandten Strategien auftreten, und aufgrund der Schwierigkeit, die Vorteile stückweise linearer Einheiten im generativen Kontext zu nutzen. Wir schlagen ein neues Schätzverfahren für generative Modelle vor, das diese Schwierigkeiten umgeht.

Die Analogie des Fälschers und der Polizei

Im vorgeschlagenen Framework der adversellen Netze wird das generative Modell einem Gegenspieler gegenübergestellt: einem diskriminierenden Modell, das lernt zu bestimmen, ob eine Stichprobe aus der Modellverteilung oder der Datenverteilung stammt. Das generative Modell kann mit einer Gruppe von Geldfälschern verglichen werden, die versuchen, Falschgeld zu produzieren und unerkannt in Umlauf zu bringen, während das diskriminierende Modell der Polizei entspricht, die das Falschgeld aufspüren will. Der Wettbewerb in diesem Spiel treibt beide Seiten an, ihre Methoden zu verbessern, bis die Fälschungen von den echten Banknoten nicht mehr zu unterscheiden sind.

Dieses Framework kann spezifische Trainingsalgorithmen für viele Arten von Modellen und Optimierungsalgorithmen liefern. In diesem Artikel untersuchen wir den Spezialfall, in dem das generative Modell Stichproben durch die Weiterleitung von Rauschen durch ein mehrschichtiges Perzeptron erzeugt und das diskriminierende Modell ebenfalls ein mehrschichtiges Perzeptron ist. Wir bezeichnen diesen Spezialfall als adverselle Netze. In diesem Fall können wir beide Modelle nur mit den äußerst erfolgreichen Backpropagation- und Dropout-Algorithmen trainieren und von dem generativen Modell nur mit Vorwärtspropagation Stichproben entnehmen. Es sind keine approximative Inferenz oder Markov-Ketten erforderlich.

2. Verwandte Arbeiten

Eine Alternative zu gerichteten graphischen Modellen mit latenten Variablen sind ungerichtete graphische Modelle mit latenten Variablen, wie Restricted Boltzmann Machines (RBMs), Deep Boltzmann Machines (DBMs) und ihre zahlreichen Varianten. Die Wechselwirkungen in solchen Modellen werden als Produkt nicht normalisierter Potentialfunktionen dargestellt, normalisiert durch eine globale Summation/Integration über alle Zustände der Zufallsvariablen.

Diese Größe (die Zustandssumme) und ihr Gradient sind, abgesehen von den trivialsten Fällen, schwer handhabbar, obwohl sie durch Markov-Chain-Monte-Carlo-Methoden (MCMC) geschätzt werden können. Mischen stellt ein erhebliches Problem für Lernalgorithmen dar, die auf MCMC angewiesen sind.

Deep Belief Networks (DBNs)

Deep Belief Networks (DBNs) sind hybride Modelle, die eine einzelne ungerichtete Schicht und mehrere gerichtete Schichten enthalten. Während ein schnelles approximatives schichtweises Trainingskriterium existiert, weisen DBNs die rechentechnischen Schwierigkeiten sowohl ungerichteter als auch gerichteter Modelle auf.

Alternative Kriterien

Alternative Kriterien, die nicht approximieren oder begrenzen t