生成對抗網絡（GANs）——深度學習框架

摘要

我哋提出咗一個通過對抗過程估算生成模型嘅新框架，同時訓練兩個模型：捕捉數據分佈嘅生成模型G，同估算樣本來源於訓練數據而非G嘅概率嘅判別模型D。G嘅訓練目標係最大化D出錯嘅概率。此框架對應於一個最小化最大化嘅雙玩家博弈。

喺任意函數G同D嘅空間中，存在唯一解，令G恢復訓練數據分佈，且D處處等於1/2。當G同D由多層感知器定義時，整個系統可通過反向傳播進行訓練。無論訓練定係生成樣本，都唔需要馬爾可夫鏈或展開近似推理網絡。實驗通過生成樣本嘅定性和定量評估，展示咗框架嘅潛力。

1. 引言

深度學習嘅承諾在於發現豐富、層次化嘅模型，用於表示人工智能應用中常見數據類型（例如自然圖像、包含語音嘅音頻波形、自然語言語料庫中嘅符號）嘅概率分佈。至今為止，深度學習最顯著嘅成功涉及判別模型，通常係將高維、豐富嘅感官輸入映射到類別標籤。呢啲成功主要基於反向傳播和dropout算法，使用具有良好梯度特性嘅分段線性單元。

深度生成模型影響較細，原因在於最大似然估計及相關策略中出現嘅許多難解概率計算難以近似，以及喺生成環境中難以利用分段線性單元嘅優勢。我哋提出咗一種新嘅生成模型估算方法，可以繞過呢啲困難。

偽鈔集團與警察嘅比喻

喺提出嘅對抗網絡框架中，生成模型與對手（判別模型）對抗，判別模型學習判斷樣本係來自模型分佈定係數據分佈。生成模型可以比喻為偽鈔集團，試圖製造假鈔並喺不被發現嘅情況下使用；而判別模型則類似警察，試圖偵測假鈔。遊戲中嘅競爭推動雙方改進方法，直到假貨與真品難以區分。

此框架可為多種類型嘅模型和優化算法提供具體訓練方法。本文中，我哋探討生成模型通過多層感知器傳遞隨機噪聲生成樣本，判別模型亦為多層感知器嘅特殊情況。我哋稱此特殊情況為對抗網絡。喺此情況下，我哋可以僅使用極成功嘅反向傳播和dropout算法訓練兩個模型，並僅使用前向傳播從生成模型採樣。無需近似推理或馬爾可夫鏈。

2. 相關研究

帶潛在變量嘅有向圖模型嘅替代方案係帶潛在變量嘅無向圖模型，例如受限玻爾茲曼機（RBMs）、深度玻爾茲曼機（DBMs）及其眾多變體。此類模型中嘅相互作用表示為未歸一化勢函數嘅乘積，並通過隨機變量所有狀態嘅全局求和/積分進行歸一化。

該量（配分函數）及其梯度對於除最簡單實例外嘅所有情況均難以處理，儘管可以通過馬爾可夫鏈蒙特卡羅（MCMC）方法進行估算。對於依賴MCMC嘅學習算法，混合係一個重大問題。

深度信念網絡（DBNs）

深度信念網絡（DBNs）係混合模型，包含單個無向層和多個有向層。雖然存在快速近似逐層訓練標準，但DBNs會遇到與無向和有向模型相關嘅計算困難。

替代標準

不近似或限制...