摘要

雖然深度學習嘅歷史根源可以追溯到幾十年前，但無論係『深度學習』呢個術語定係相關研究方法，喺五年前都未算普及。直到2012年Krizhevsky、Sutskever同Hinton發表咗ImageNet深度網絡模型呢篇經典論文，先至重新點燃咗呢個領域嘅熱情。咁之後五年間，呢個領域有咩新發現？喺語音識別、圖像識別同遊戲對弈等領域取得重大進展，同埋傳媒廣泛報道嘅熱潮背景下，我提出十個對深度學習嘅憂慮，並指出如果要實現通用人工智能，深度學習必須同其他技術結合使用。

引言：深度學習係咪開始撞板？

深度學習雖然近年大熱，但其實歷史根源可以追溯到幾十年前。直到2012年，情況先至出現轉變，當時Krizhevsky、Sutskever同Hinton發表咗極具影響力嘅論文《使用深度卷積神經網絡進行ImageNet分類》，喺ImageNet物體識別挑戰賽中取得突破性成果。

同年內，深度學習就登上咗《紐約時報》頭版，好快就成為人工智能領域最廣為人知嘅技術。雖然用多層神經網絡進行訓練嘅基本概念並唔新鮮，但運算能力同數據可用性嘅提升，令深度學習首次真正變得實用。

自此，深度學習喺語音識別、圖像識別同語言翻譯等多個領域取得咗大量頂尖成果，並且喺當前眾多AI應用中扮演重要角色。企業已經投入數十億美元爭奪深度學習人才，著名倡導者吳恩達（Andrew Ng）更指出：「如果普通人可以用少於一秒鐘完成某項腦力任務，我哋好可能而家或者唔使好耐將來就可以用AI將佢自動化。」

不過，有證據表明深度學習可能開始遇到樽頸。正如Keras神經網絡庫作者François Chollet喺2017年12月指出：「對於深度學習帶來革命性解決方案嘅大多數問題（例如視覺、語音），我哋喺2016至2017年已經進入回報遞減階段。」就連深度學習之父Geoff Hinton都承認：「未來要靠某個對我講過嘅所有嘢都深表懷疑嘅研究生。」

本文旨在為過度狂熱降溫，同時思考領域需要啲咩先可以繼續前進，對象包括技術研究人員同埋技術背景較少但想了解領域發展方向嘅AI使用者。

深度學習嘅本質同強項

深度學習係指一類機器學習技術，使用多層非線性處理單元進行特徵提取同轉換。每一層都用前一層嘅輸出作為輸入，令系統能夠學習具有多重抽象層次嘅數據表示。

深度學習嘅根本優勢在於佢能夠通過反向傳播算法，利用梯度下降來調整神經元之間嘅連接權重，從而喺大數據集中發現複雜結構。呢種方法喺以下情況證明特別有效：

輸入輸出映射關係複雜，但可以從大量數據中學習
任務所需嘅特徵好難由人類工程師明確指定
問題涉及人類同動物天生擅長嘅感知任務

深度學習喺幾個關鍵領域取得顯著成功：

電腦視覺

卷積神經網絡（CNN）徹底改變咗電腦視覺領域，喺圖像分類、物體檢測同人臉識別等任務上達到人類水平。2012年ImageNet嘅突破表明，深度網絡可以顯著超越以往方法，將top-5錯誤率從26%降低到15%。

語音識別

循環神經網絡（RNN）同長短期記憶（LSTM）網絡大幅改進咗語音識別系統，喺受控環境中錯誤率降至接近人類水平。Google、Apple同Amazon等公司已經將呢啲技術整合到佢哋嘅虛擬助理中。

自然語言處理

序列到序列模型同注意力機制令機器翻譯、文本摘要同問答系統取得重大進展。Google神經機器翻譯系統就係呢個進步嘅突出例子。

遊戲對弈

深度強化學習產生咗喺圍棋、象棋同電子遊戲等複雜遊戲中超越人類專家嘅系統。DeepMind嘅AlphaGo同OpenAI嘅Dota 2機械人展示咗深度學習同強化學習結合嘅潛力。

呢啲成功案例嘅共同點在於，深度學習能夠從原始數據中自動學習相關特徵，消除咗