Порождающие состязательные сети: Революционная архитектура глубокого обучения

Иэн Дж. Гудфеллоу, Жан Пуж-Абади, Мехди Мирза, Бинг Сюй, Дэвид Уорд-Фарли, Шерджил Озаир, Аарон Курвиль, Йошуа Бенжио

Факультет информатики и операционных исследований, Университет Монреаля, Монреаль, Квебек H3C 3J7

Аннотация

Мы предлагаем новую архитектуру для оценки генеративных моделей через состязательный процесс, в котором мы одновременно обучаем две модели: генеративную модель G, которая захватывает распределение данных, и дискриминативную модель D, которая оценивает вероятность того, что образец получен из обучающих данных, а не от G. Процедура обучения G направлена на максимизацию вероятности ошибки D. Данная архитектура соответствует минимаксной игре двух участников.

В пространстве произвольных функций G и D существует единственное решение, при котором G восстанавливает распределение обучающих данных, а D повсеместно равна 1/2. В случае, когда G и D определены многослойными перцептронами, вся система может обучаться с помощью обратного распространения ошибки. Нет необходимости в цепях Маркова или развернутых приближенных сетях вывода как во время обучения, так и при генерации образцов. Эксперименты демонстрируют потенциал архитектуры через качественную и количественную оценку сгенерированных образцов.

1. Введение

Задача глубокого обучения заключается в обнаружении богатых иерархических моделей, которые представляют вероятностные распределения для типов данных, встречающихся в приложениях искусственного интеллекта, таких как натуральные изображения, аудиоволны, содержащие речь, и символы в корпусах естественного языка. До сих пор наиболее впечатляющие успехи в глубоком обучении были связаны с дискриминативными моделями, обычно теми, которые отображают высокоразмерный богатый сенсорный вход в метку класса. Эти успехи в основном основывались на алгоритмах обратного распространения и прореживания, используя кусочно-линейные единицы с особенно хорошо обусловленным градиентом.

Глубокие генеративные модели оказали меньшее влияние из-за сложности аппроксимации многих трудноразрешимых вероятностных вычислений, возникающих при оценке максимального правдоподобия и связанных стратегиях, а также из-за сложности использования преимуществ кусочно-линейных единиц в генеративном контексте. Мы предлагаем новую процедуру оценки генеративных моделей, которая обходит эти трудности.

Аналогия с фальшивомонетчиками и полицией

В предлагаемой архитектуре состязательных сетей генеративная модель противопоставляется оппоненту: дискриминативной модели, которая обучается определять, принадлежит ли образец к распределению модели или данных. Генеративную модель можно сравнить с группой фальшивомонетчиков, пытающихся производить поддельную валюту и использовать её без обнаружения, тогда как дискриминативная модель аналогична полиции, пытающейся выявить поддельную валюту. Соревнование в этой игре заставляет обе команды совершенствовать свои методы до тех пор, пока подделки не станут неотличимы от настоящих изделий.

Данная архитектура может порождать специфические алгоритмы обучения для многих типов моделей и алгоритмов оптимизации. В данной статье мы исследуем частный случай, когда генеративная модель создает образцы, пропуская случайный шум через многослойный перцептрон, а дискриминативная модель также является многослойным перцептроном. Мы называем этот частный случай состязательными сетями. В этом случае мы можем обучать обе модели, используя лишь высокоуспешные алгоритмы обратного распространения и прореживания, и выполнять выборку из генеративной модели, используя только прямое распространение. Приближенный вывод или цепи Маркова не требуются.

2. Смежные исследования

Альтернативой направленным графическим моделям со скрытыми переменными являются ненаправленные графические модели со скрытыми переменными, такие как ограниченные машины Больцмана (RBM), глубокие машины Больцмана (DBM) и их многочисленные варианты. Взаимодействия в таких моделях представлены как произведение ненормированных потенциальных функций, нормированных глобальной суммой/интегралом по всем состояниям случайных переменных.

Эта величина (статистическая сумма) и её градиент являются трудноразрешимыми для всех, кроме самых тривиальных случаев, хотя они могут быть оценены методами Монте-Карло с цепями Маркова (MCMC). Проблема смешивания представляет значительную трудность для алгоритмов обучения, полагающихся на MCMC.

Глубокие сети доверия (DBN)

Глубокие сети доверия (DBN) — это гибридные модели, содержащие один ненаправленный слой и несколько направленных слоев. Хотя существует быстрый приближенный послойный критерий обучения, DBN несут вычислительные трудности, связанные как с ненаправленными, так и с направленными моделями.

Альтернативные критерии

Альтернативные критерии, которые не аппроксимируют и не ограничивают...