要約
ディープラーニングの歴史的ルーツは数十年前に遡るが、この用語も手法も、Krizhevsky、Sutskever、HintonによるImageNetの古典的深層ネットモデル(2012年)などの論文によって分野が再燃した5年余り前には広く認知されていなかった。その後5年間でこの分野は何を発見したのか?音声認識、画像認識、ゲームプレイなどの分野で大きな進歩が達成され、一般メディアで熱狂的な注目を集める背景の中で、私はディープラーニングに関する10の懸念を提示し、人工汎用知能(AGI)の実現には、ディープラーニングを他の技術で補完する必要があることを示唆する。
序論:ディープラーニングは限界に近づいているのか?
ディープラーニングは近年爆発的に普及したが、その歴史的ルーツは数十年前にまで遡る。この分野は、Krizhevsky、Sutskever、Hintonによる『深層畳み込みニューラルネットワークを用いたImageNet分類』のような非常に影響力のある論文が発表された2012年まで、比較的注目されていなかった。この論文はImageNetとして知られる物体認識コンペティションで当時の最高性能を達成した。
その年のうちに、ディープラーニングはニューヨーク・タイムズの一面を飾り、急速に人工知能において最もよく知られた技術となった。多層のニューラルネットワークを訓練するという基本的な考え方は新しいものではなかったが、計算能力とデータ利用可能性の向上により、ディープラーニングは初めて真に実用的なものとなった。
それ以来、ディープラーニングは音声認識、画像認識、言語翻訳などの分野で数多くの最先端の結果を生み出し、現在のAIアプリケーションの広範な領域で役割を果たしている。企業は何十億ドルもの資金をディープラーニング人材の獲得競争に投じており、アンドリュー・ングのような著名な提唱者は「典型的な人間が1秒未満の思考で実行できる精神的タスクは、現在あるいは近い将来、AIを用いて自動化できる可能性が高い」と示唆している。
しかし、ディープラーニングが限界に近づいている可能性を示す証拠がある。Kerasニューラルネットワークライブラリの作者であるフランソワ・ショレは2017年12月に次のように指摘している。「ディープラーニングが革新的により優れたソリューションを可能にしたほとんどの問題(視覚、音声)において、我々は2016年から2017年に収穫逓減の領域に入った」。ディープラーニングの父であるジェフリー・ヒントンでさえ、「未来は、私が言ったすべてのことを深く疑う大学院生にかかっている」と認めている。
本論文は、この分野が前進するために何が必要かを考察しながら、非合理的な熱狂を和らげることを目的としており、技術的研究者と、この分野の行く末を理解したい技術的背景の浅いAI消費者、両方に向けて書かれている。
ディープラーニングの本質と強み
ディープラーニングは、特徴抽出と変換のために非線形処理ユニットの多層を使用する機械学習技術のクラスを指す。各連続層は前の層の出力を入力として使用し、システムが複数のレベルの抽象化でデータの表現を学習することを可能にする。
ディープラーニングの基本的な強みは、誤差逆伝播法アルゴリズムを通じて大規模データセットの中の複雑な構造を発見する能力にある。このアルゴリズムは勾配降下法を使用してニューロン間の接続重みを調整する。このアプローチは、以下の問題に対して特に強力であることが証明されている:
- 入力-出力マッピングが複雑だが、豊富なデータから学習可能である
- タスクに必要な特徴を人間のエンジニアが容易に指定できない
- 人間や動物が自然に解決する知覚タスクに類似した問題を含む
ディープラーニングは、いくつかの主要分野で顕著な成功を収めている:
コンピュータビジョン
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンに革命をもたらし、画像分類、物体検出、顔認識などのタスクで人間レベルの性能を達成した。2012年のImageNetにおける画期的成果は、深層ネットワークが従来のアプローチを大幅に上回る性能を発揮できることを示し、トップ5エラー率を26%から15%に減少させた。
音声認識
再帰型ニューラルネットワーク(RNN)と長短期記憶(LSTM)ネットワークは音声認識システムを劇的に改善し、制御された環境ではエラー率が人間に近いレベルまで低下した。Google、Apple、Amazonなどの企業はこれらの技術を自社の仮想アシスタントに統合している。
自然言語処理
Sequence-to-sequenceモデルとアテンション(注意)メカニズムは、機械翻訳、テキスト要約、質問応答システムにおいて大きな進歩を可能にした。Googleのニューラル機械翻訳システムは、この進歩の顕著な例の一つである。
ゲームプレイ
深層強化学習は、囲碁、チェス、ビデオゲームなどの複雑なゲームで人間の専門家を凌駕するシステムを生み出した。DeepMindのAlphaGoとOpenAIのDota 2ボットは、ディープラーニングと強化学習を組み合わせる可能性を示している。
これらの成功に共通する糸は、ディープラーニングが生データから関連する特徴を自動的に学習する能力であり、人手による特徴設計の必要性を排除している。