深度学习:批判性审视——挑战与未来方向

Gary Marcus对深度学习局限性与前景的深度剖析,提出十大核心关切,指出实现通用人工智能需要混合方法。
aipowertoken.com | PDF Size: 0.3 MB

摘要

尽管深度学习的历史渊源可追溯至数十年前,但无论是“深度学习”这一术语还是其方法论,在五年前都尚未普及。直到2012年Krizhevsky、Sutskever和Hinton发表的ImageNet深度网络模型等开创性论文重新点燃了这一领域。在随后的五年间,该领域取得了哪些发现?在语音识别、图像识别和游戏对战等领域取得显著进展,且大众媒体热情高涨的背景下,本文提出深度学习的十大关切,并指出若要实现通用人工智能,深度学习必须与其他技术相结合。

引言:深度学习是否正在触及天花板?

尽管深度学习近年来爆发式流行,但其历史根源可追溯至数十年前。该领域在五年前还鲜少受到关注,直到2012年Krizhevsky、Sutskever和Hinton发表极具影响力的论文《使用深度卷积神经网络进行ImageNet分类》,在ImageNet物体识别挑战赛中取得突破性成果,彻底改变了这一局面。

同年内,深度学习便登上了《纽约时报》头版,并迅速成为人工智能领域最广为人知的技术。虽然使用多层神经网络进行训练的基本理念并非创新,但计算能力和数据可用性的提升首次使深度学习真正具备了实用性。

此后,深度学习在语音识别、图像识别和机器翻译等领域不断刷新最佳成绩,并在当前众多人工智能应用中扮演重要角色。企业为争夺深度学习人才已投入数百亿美元,知名倡导者吴恩达曾提出:“如果普通人能在1秒内完成某项思维任务,那么我们现在或不久的将来就能通过AI实现其自动化。”

然而,有证据表明深度学习可能正面临瓶颈。Keras神经网络库作者François Chollet在2017年12月指出:“对于深度学习带来革命性解决方案的大部分领域(视觉、语音),我们在2016-2017年已进入收益递减阶段。”就连深度学习教父Geoff Hinton也承认:“未来取决于某个对我所言皆持怀疑态度的研究生。”

本文旨在理性审视领域过热现象,同时探讨推动领域发展所需条件,既面向技术研究人员,也帮助非技术背景的AI使用者理解领域发展方向。

深度学习的优势领域

深度学习指的是一类机器学习技术,其通过多层非线性处理单元进行特征提取与变换。每一连续层将前一层输出作为输入,使系统能够学习具有多重抽象层级的数据表征。

深度学习的根本优势在于其通过反向传播算法发现大型数据集中复杂结构的能力,该算法使用梯度下降法调整神经元连接权重。这种方法在以下场景中展现出卓越效能:

  • 输入-输出映射关系复杂但可从海量数据中学习
  • 任务所需特征难以由工程师明确定义
  • 问题涉及人类与动物天生擅长的感知类任务

深度学习在多个关键领域取得显著成就:

计算机视觉

卷积神经网络(CNN)彻底改变了计算机视觉领域,在图像分类、目标检测和人脸识别等任务中达到人类水平。2012年ImageNet的突破性成果表明,深度网络能显著超越传统方法,将Top-5错误率从26%降至15%。

语音识别

循环神经网络(RNN)与长短期记忆网络(LSTM)极大提升了语音识别系统性能,在受控环境中错误率已接近人类水平。谷歌、苹果和亚马逊等公司已将相关技术整合至智能助理产品中。

自然语言处理

序列到序列模型与注意力机制推动了机器翻译、文本摘要和问答系统的重大进展。谷歌神经机器翻译系统即是这一进步的典型例证。

游戏博弈

深度强化学习催生的系统已在围棋、国际象棋和电子游戏等复杂游戏中超越人类专家。DeepMind的AlphaGo与OpenAI的Dota2对战机器人展现了深度学习与强化学习结合的潜力。

这些成功的共同点在于,深度学习能够从原始数据中自动学习相关特征,无需