요약

딥러닝은 수십 년 전으로 거슬러 올라가는 역사적 뿌리를 가지고 있지만, '딥러닝'이라는 용어나 접근법이 크리제브스키, 서트스커버, 힌튼의 2012년 이미지넷 딥넷 모델과 같은 논문으로 분야가 재점화되기 5년 전만 해도 널리 알려지지 않았습니다. 이후 5년 동안 이 분야는 무엇을 발견했을까요? 음성 인식, 이미지 인식, 게임 플레이 같은 분야에서 상당한 진전이 있었고 대중 매체에서 열렬한 관심을 받는 배경 속에서, 저는 딥러닝에 대한 10가지 우려 사항을 제시하고, 인공 일반 지능(AGI)에 도달하려면 딥러닝에 다른 기법들을 보완해야 한다고 제안합니다.

서론: 딥러닝은 벽에 부딪히고 있는가?

딥러닝은 최근 폭발적인 인기에도 불구하고 수십 년 전으로 거슬러 올라가는 역사적 뿌리를 가지고 있습니다. 이 분야는 2012년 크리제브스키, 서트스커버, 힌튼의 '딥 컨볼루션 신경망을 이용한 이미지넷 분류'와 같은 영향력 있는 논문이 발표되며 모든 것이 바뀌기 전까지는 상대적으로 주목을 받지 못했습니다. 이 논문은 이미지넷으로 알려진 객체 인식 챌린지에서 최첨단 결과를 달성했습니다.

그 해가 가기 전에, 딥러닝은 뉴욕타임스 1면을 장식했고, 빠르게 인공지능 분야에서 가장 잘 알려진 기술이 되었습니다. 여러 층으로 신경망을 훈련시킨다는 일반적인 아이디어가 새로운 것은 아니었지만, 컴퓨팅 성능과 데이터 가용성의 증가로 인해 딥러닝이 비로소 실용적으로 사용될 수 있게 되었습니다.

그 이후로 딥러닝은 음성 인식, 이미지 인식, 언어 번역 같은 분야에서 수많은 최첨단 결과를 내놓았으며, 현재 AI 응용 프로그램의 광범위한 영역에서 역할을 하고 있습니다. 기업들은 딥러닝 인재를 확보하기 위해 수십억 달러를 투자했으며, 앤드류 응과 같은 저명한 옹호자들은 '일반인이 1초 미만의 사고로 수행할 수 있는 정신 작업은 현재 또는 가까운 미래에 AI를 사용하여 자동화할 수 있을 것'이라고 제안했습니다.

그러나 증거는 딥러닝이 벽에 가까워지고 있음을 시사합니다. 케라스 신경망 라이브러리의 저자 프랑수아 숄레가 2017년 12월에 언급했듯이: '딥러닝이 혁신적으로 더 나은 솔루션을 가능하게 한 대부분의 문제(비전, 음성)에 대해, 우리는 2016-2017년에 한계 수익 체감 영역에 진입했습니다.' 딥러닝의 대부인 제프리 힌튼조차도 '미래는 내가 말한 모든 것을 깊이 의심하는 대학원생에게 달려 있다'고 인정합니다.

이 논문은 비이성적인 과열을 누그러뜨리면서 분야가 앞으로 나아가기 위해 필요한 것이 무엇인지 고려하는 것을 목표로 하며, 기술적 배경이 적은 AI 소비자들과 분야의 방향을 이해하기 원하는 기술 연구자들을 모두 대상으로 합니다.

딥러닝의 정의와 강점

딥러닝은 특징 추출과 변환을 위해 여러 층의 비선형 처리 유닛을 사용하는 머신러닝 기법들의 한 종류를 말합니다. 각 연속적인 층은 이전 층의 출력을 입력으로 사용하여, 시스템이 여러 수준의 추상화로 데이터 표현을 학습할 수 있게 합니다.

딥러닝의 근본적인 강점은 역전파 알고리즘을 통해 대규모 데이터 세트에서 복잡한 구조를 발견하는 능력에 있습니다. 이 알고리즘은 경사 하강법을 사용하여 뉴런 간 연결의 가중치를 조정합니다. 이 접근법은 다음과 같은 문제에 대해 특히 강력한 것으로 입증되었습니다:

입력-출력 매핑이 복잡하지만 풍부한 데이터로부터 학습할 수 있는 경우
작업에 필요한 특징을 인간 엔지니어가 쉽게 명시할 수 없는 경우
문제가 인간과 동물이 자연스럽게 해결하는 인지 작업과 유사한 경우

딥러닝은 몇 가지 주요 영역에서 주목할 만한 성공을 거두었습니다:

컴퓨터 비전

컨볼루션 신경망(CNN)은 컴퓨터 비전을 혁신했으며, 이미지 분류, 객체 감지, 얼굴 인식과 같은 작업에서 인간 수준의 성능을 달성했습니다. 2012년 이미지넷 돌파구는 딥 네트워크가 기존 접근법을 크게 능가할 수 있음을 보여주었으며, 상위 5개 오류율을 26%에서 15%로 줄였습니다.

음성 인식

순환 신경망(RNN)과 장단기 메모리(LSTM) 네트워크는 음성 인식 시스템을 극적으로 개선시켰으며, 통제된 환경에서 오류율이 거의 인간 수준으로 떨어졌습니다. 구글, 애플, 아마존과 같은 기업들은 이러한 기술들을 자신들의 가상 비서에 통합했습니다.

자연어 처리

시퀀스-투-시퀀스 모델과 어텐션 메커니즘은 기계 번역, 텍스트 요약, 질문 응답 시스템에서 상당한 발전을 가능하게 했습니다. 구글의 신경망 기계 번역 시스템은 이 진전의 두드러진 예를 보여줍니다.

게임 플레이

딥 강화 학습은 바둑, 체스, 비디오 게임과 같은 복잡한 게임에서 인간 전문가를 능가하는 시스템을 만들어냈습니다. 딥마인드의 알파고와 오픈AI의 도타 2 봇은 딥러닝과 강화 학습을 결합한 것의 잠재력을 보여줍니다.

이러한 성공 사례들의 공통된 맥락은 딥러닝이 원시 데이터로부터 관련 특징을 자동으로 학습하는 능력으로,