Аннотация
Хотя история глубокого обучения насчитывает десятилетия, ни сам термин, ни методология не были популярны ещё пять лет назад, когда область получила новый импульс после публикации ставшей классической работы Крижевского, Сацкевера и Хинтона по глубоким нейросетям для ImageNet (2012). Какие открытия произошли в последующие пять лет? На фоне значительного прогресса в распознавании речи, компьютерном зрении и игровых системах, а также беспрецедентного энтузиазма в СМИ, я выделяю десять проблем глубокого обучения и доказываю, что для достижения искусственного общего интеллекта необходимо дополнять его другими методами.
Введение: Приближается ли глубокое обучение к потолку возможностей?
Несмотря на взрывной рост популярности в последние годы, глубокое обучение имеет многолетнюю историю развития. До 2012 года область оставалась малозаметной, пока публикация влиятельной работы Крижевского, Сацкевера и Хинтона «Классификация ImageNet с помощью глубоких сверточных нейронных сетей» не продемонстрировала прорывные результаты в задаче распознавания объектов.
Уже к концу года глубокое обучение попало на первую полосу The New York Times и стало самым известным методом искусственного интеллекта. Хотя идея обучения многослойных нейронных сетей не была новой, рост вычислительных мощностей и доступности данных впервые сделал глубокое обучение практичным инструментом.
С тех пор метод показал выдающиеся результаты в распознавании речи, компьютерном зрении и машинном переводе, став основой для большинства современных ИИ-решений. Корпорации инвестируют миллиарды в поиск талантов, а такие эксперты, как Эндрю Ын, заявляют: «Если обычный человек выполняет умственную задачу менее чем за секунду, её можно автоматизировать с помощью ИИ уже сейчас или в ближайшем будущем».
Однако появляются признаки исчерпания потенциала. Как отметил в декабре 2017 года Франсуа Шолле, создатель библиотеки Keras: «В большинстве областей, где глубокое обучение дало прорывные результаты (зрение, речь), мы достигли зоны убывающей отдачи в 2016-2017 годах». Даже Джеффри Хинтон, «отец» глубокого обучения, признаёт: «Будущее зависит от аспиранта, который с недоверием отнесётся ко всему, что я сказал».
Данная работа aims to temper irrational exuberance while considering what the field needs to move forward, addressing both technical researchers and AI consumers with less technical background who wish to understand where the field is headed.
Суть глубокого обучения и его сильные стороны
Глубокое обучение — класс методов машинного обучения, использующий многослойные нелинейные преобразования для выделения и трансформации признаков. Каждый последующий слой использует выход предыдущего как вход, позволяя системе изучать иерархические представления данных.
Ключевое преимущество метода — способность выявлять сложные структуры в больших данных через алгоритм обратного распространения ошибки, использующий градиентный спуск для корректировки весов связей. Этот подход особенно эффективен для задач, где:
- Сложное соответствие «вход-выход» можно выучить из обильных данных
- Признаки для решения задачи сложно формализовать инженерами
- Проблема связана с перцептивными задачами, естественными для людей и животных
Метод продемонстрировал выдающиеся результаты в ключевых областях:
Компьютерное зрение
Свёрточные нейронные сети произвели революцию, достигнув человеческого уровня в классификации изображений, детекции объектов и распознавании лиц. Прорыв на ImageNet 2012 года показал, что глубокие сети превосходят предыдущие подходы, снизив ошибку с 26% до 15%.
Распознавание речи
Рекуррентные сети и сети с долгой краткосрочной памятью радикально улучшили системы распознавания речи, снизив ошибки до near-human уровня. Технологии интегрированы в голосовые помощники Google, Apple и Amazon.
Обработка естественного языка
Модели «последовательность-последовательность» и механизмы внимания обеспечили прогресс в машинном переводе, суммаризации текстов и вопросно-ответных системах. Нейронный машинный перевод Google — яркий пример таких достижений.
Игровые системы
Глубокое обучение с подкреплением создало системы, превосходящие людей в сложных играх: Го, шахматы и компьютерные игры. AlphaGo от DeepMind и боты для Dota 2 от OpenAI демонстрируют потенциал сочетания глубокого обучения с reinforcement learning.
Объединяющая черта этих успехов — способность метода автоматически извлекать релевантные признаки из сырых данных, исключая необходимость