摘要
雖然深度學習嘅歷史根源可以追溯到幾十年前,但無論係『深度學習』呢個術語定係相關研究方法,喺五年前都未算普及。直到2012年Krizhevsky、Sutskever同Hinton發表咗ImageNet深度網絡模型呢篇經典論文,先至重新點燃咗呢個領域嘅熱情。咁之後五年間,呢個領域有咩新發現?喺語音識別、圖像識別同遊戲對弈等領域取得重大進展,同埋傳媒廣泛報道嘅熱潮背景下,我提出十個對深度學習嘅憂慮,並指出如果要實現通用人工智能,深度學習必須同其他技術結合使用。
引言:深度學習係咪開始撞板?
深度學習雖然近年大熱,但其實歷史根源可以追溯到幾十年前。直到2012年,情況先至出現轉變,當時Krizhevsky、Sutskever同Hinton發表咗極具影響力嘅論文《使用深度卷積神經網絡進行ImageNet分類》,喺ImageNet物體識別挑戰賽中取得突破性成果。
同年內,深度學習就登上咗《紐約時報》頭版,好快就成為人工智能領域最廣為人知嘅技術。雖然用多層神經網絡進行訓練嘅基本概念並唔新鮮,但運算能力同數據可用性嘅提升,令深度學習首次真正變得實用。
自此,深度學習喺語音識別、圖像識別同語言翻譯等多個領域取得咗大量頂尖成果,並且喺當前眾多AI應用中扮演重要角色。企業已經投入數十億美元爭奪深度學習人才,著名倡導者吳恩達(Andrew Ng)更指出:「如果普通人可以用少於一秒鐘完成某項腦力任務,我哋好可能而家或者唔使好耐將來就可以用AI將佢自動化。」
不過,有證據表明深度學習可能開始遇到樽頸。正如Keras神經網絡庫作者François Chollet喺2017年12月指出:「對於深度學習帶來革命性解決方案嘅大多數問題(例如視覺、語音),我哋喺2016至2017年已經進入回報遞減階段。」就連深度學習之父Geoff Hinton都承認:「未來要靠某個對我講過嘅所有嘢都深表懷疑嘅研究生。」
本文旨在為過度狂熱降溫,同時思考領域需要啲咩先可以繼續前進,對象包括技術研究人員同埋技術背景較少但想了解領域發展方向嘅AI使用者。
深度學習嘅本質同強項
深度學習係指一類機器學習技術,使用多層非線性處理單元進行特徵提取同轉換。每一層都用前一層嘅輸出作為輸入,令系統能夠學習具有多重抽象層次嘅數據表示。
深度學習嘅根本優勢在於佢能夠通過反向傳播算法,利用梯度下降來調整神經元之間嘅連接權重,從而喺大數據集中發現複雜結構。呢種方法喺以下情況證明特別有效:
- 輸入輸出映射關係複雜,但可以從大量數據中學習
- 任務所需嘅特徵好難由人類工程師明確指定
- 問題涉及人類同動物天生擅長嘅感知任務
深度學習喺幾個關鍵領域取得顯著成功:
電腦視覺
卷積神經網絡(CNN)徹底改變咗電腦視覺領域,喺圖像分類、物體檢測同人臉識別等任務上達到人類水平。2012年ImageNet嘅突破表明,深度網絡可以顯著超越以往方法,將top-5錯誤率從26%降低到15%。
語音識別
循環神經網絡(RNN)同長短期記憶(LSTM)網絡大幅改進咗語音識別系統,喺受控環境中錯誤率降至接近人類水平。Google、Apple同Amazon等公司已經將呢啲技術整合到佢哋嘅虛擬助理中。
自然語言處理
序列到序列模型同注意力機制令機器翻譯、文本摘要同問答系統取得重大進展。Google神經機器翻譯系統就係呢個進步嘅突出例子。
遊戲對弈
深度強化學習產生咗喺圍棋、象棋同電子遊戲等複雜遊戲中超越人類專家嘅系統。DeepMind嘅AlphaGo同OpenAI嘅Dota 2機械人展示咗深度學習同強化學習結合嘅潛力。
呢啲成功案例嘅共同點在於,深度學習能夠從原始數據中自動學習相關特徵,消除咗