深度學習:批判性評估——挑戰與未來方向

Gary Marcus對深度學習的局限與前景提出全面分析,檢視十大關鍵問題,並探討實現通用人工智慧所需之混合方法。
aipowertoken.com | PDF Size: 0.3 MB

摘要

儘管深度學習的歷史根源可追溯至數十年前,但無論是「深度學習」這個術語還是其方法論,在五年前尚未普及。直到2012年Krizhevsky、Sutskever與Hinton發表ImageNet深度網路模型等開創性論文,才重新點燃此領域的發展。在過去五年間,這個領域有何發現?在語音辨識、影像識別與遊戲對弈等領域取得顯著進展,且大眾媒體充滿熱烈報導的背景下,本文提出深度學習的十項疑慮,並指出若要實現通用人工智慧,必須輔以其他技術手段。

緒論:深度學習是否正面臨瓶頸?

深度學習儘管近年爆發性成長,其歷史淵源可追溯至數十年前。該領域在2012年前始終未受重視,直到Krizhevsky、Sutskever與Hinton發表具高度影響力的論文《使用深度卷積神經網路進行ImageNet分類》,在ImageNet物件識別挑戰中達成突破性成果,從此改寫發展軌跡。

同年內,深度學習躍上《紐約時報》頭版,迅速成為人工智慧領域最廣為人知的技術。雖然多層神經網路的訓練概念並非創新,但運算能力與數據可用性的提升,首次使深度學習具備實際可行性。

此後深度學習在語音辨識、影像識別與語言翻譯等領域締造眾多尖端成果,並廣泛應用於當前人工智慧系統。企業已投入數十億美元爭奪深度學習人才,知名倡導者吳恩達更直言:「若普通人能在一秒內完成某項心智任務,我們現在或近期就能透過AI實現自動化。」

然而有跡象顯示深度學習可能正面臨瓶頸。Keras神經網路庫作者François Chollet於2017年12月指出:「在多數深度學習帶來革命性進展的領域(視覺、語音),我們在2016-2017年已進入收益遞減階段。」就連深度學習教父Geoff Hinton也承認:「未來取決於某位對我所言皆抱持懷疑的研究生。」

本文旨在抑制非理性狂熱,同時探討領域前進所需要素,對象兼顧技術研究者與希望理解領域發展方向的非技術背景AI使用者。

深度學習的定義與優勢領域

深度學習係指一類運用多層非線性處理單元進行特徵提取與轉換的機器學習技術。每一層皆以前一層輸出作為輸入,使系統能學習具多層抽象化的數據表徵。

深度學習的核心優勢在於透過反向傳播演算法發現大型數據集中複雜結構的能力,該演算法使用梯度下降法調整神經元間的連接權重。此方法在以下情境展現卓越成效:

  • 輸入輸出映射關係複雜但可從豐富數據中學習
  • 任務所需特徵難以由人類工程師明確定義
  • 問題涉及人類與動物天生擅長的感知任務

深度學習在數個關鍵領域取得顯著成就:

電腦視覺

卷積神經網路(CNNs)革命性地改變電腦視覺領域,在影像分類、物件檢測與人臉辨識等任務達到人類水準。2012年ImageNet突破性成果顯示,深度網路能大幅超越既有方法,將top-5錯誤率從26%降至15%。

語音辨識

循環神經網路(RNNs)與長短期記憶(LSTM)網路大幅提升語音辨識系統效能,在受控環境中錯誤率已接近人類水準。Google、Apple與Amazon等企業已將此技術整合至虛擬助理服務。

自然語言處理

序列到序列模型與注意力機制促使機器翻譯、文本摘要與問答系統長足進步。Google神經機器翻譯系統即為此進展的重要例證。

遊戲對弈

深度強化學習催生出在圍棋、象棋與電子遊戲等複雜遊戲中超越人類專家的系統。DeepMind的AlphaGo與OpenAI的Dota 2機器人展現深度學習結合強化學習的潛力。

這些成功案例的共同脈絡在於深度學習能從原始數據自動學習相關特徵,免除