生成对抗网络（GANs）——深度学习框架

摘要

我们提出了一种通过对抗过程估计生成模型的新框架。该框架同时训练两个模型：捕捉数据分布的生成模型G，以及评估样本来自训练数据而非G的概率的判别模型D。G的训练目标是最大化D的误判概率，该框架对应着最小化最大值的双人博弈。

在任意函数G和D的空间中，存在唯一解：G恢复训练数据分布，D处处等于1/2。当G和D由多层感知机定义时，整个系统可通过反向传播进行训练。在训练和样本生成过程中均无需马尔可夫链或展开近似推理网络。实验通过对生成样本的定性与定量评估，证明了该框架的潜力。

1. 引言

深度学习的核心目标是发现能够表征人工智能应用数据（如自然图像、包含语音的音频波形、自然语言语料库符号）概率分布的丰富层次化模型。迄今为止，深度学习最显著的成就主要集中在判别模型领域，特别是那些将高维丰富感官输入映射到类别标签的模型。这些突破主要基于反向传播和丢弃算法，并利用了具有良好梯度特性的分段线性单元。

深度生成模型的影响相对有限，这源于最大似然估计及相关策略中难以处理的概率计算近似难题，以及在生成场景中难以有效利用分段线性单元的优势。我们提出了一种新的生成模型估计方法，可有效规避这些困难。

造伪者-警察类比

在提出的对抗网络框架中，生成模型与对手——判别模型相互博弈：判别模型学习判断样本来自模型分布还是真实数据分布。生成模型可类比伪造货币团伙，试图制造假币并流通使用而不被发现；判别模型则类似警方，致力于甄别假币。这种博弈竞争推动双方持续优化策略，直至伪造品与真品无法区分。

该框架可为多种模型和优化算法提供具体训练方案。本文重点探讨生成模型通过多层感知机传递随机噪声生成样本、判别模型同样为多层感知机的特例，称为对抗网络。在此情况下，我们可仅使用成熟的反向传播与丢弃算法训练双模型，并仅通过前向传播即可从生成模型采样，无需近似推理或马尔可夫链。

2. 相关工作

含隐变量的有向图模型替代方案包括无向图模型，例如受限玻尔兹曼机、深度玻尔兹曼机及其众多变体。此类模型中的相互作用表现为未归一化势函数的乘积，并通过随机变量所有状态的全局求和/积分进行归一化。

除非是最简单的情况，否则该量（配分函数）及其梯度都难以直接计算，尽管可通过马尔可夫链蒙特卡洛方法进行估计。对于依赖MCMC的学习算法，混合问题构成重大挑战。

深度信念网络

深度信念网络是包含单个无向层和多个有向层的混合模型。虽然存在快速的逐层近似训练准则，但DBN仍需应对无向与有向模型共同存在的计算难题。

替代准则

不依赖近似或边界处理的替代准则