چکیده

اگرچه یادگیری عمیق ریشه‌های تاریخی چند دهه‌ای دارد، اما نه این اصطلاح و نه این رویکرد تا پنج سال پیش چندان شناخته شده نبود، تا زمانی که این حوزه با انتشار مقالاتی مانند مدل شبکه عمیق کلاسیک کریزفسکی، سوتسکور و هینتون در سال 2012 برای ImageNet دوباره احیا شد. این حوزه در پنج سال پس از آن چه دستاوردهایی داشته است؟ در پس‌زمینه پیشرفت‌های قابل توجه در حوزه‌هایی مانند تشخیص گفتار، تشخیص تصویر و بازی‌های رایانه‌ای، و با وجود شور و اشتیاق فراوان در رسانه‌ها، من ده نگرانی درباره یادگیری عمیق مطرح می‌کنم و پیشنهاد می‌دهم که برای دستیابی به هوش مصنوعی عمومی، یادگیری عمیق باید با سایر تکنیک‌ها تکمیل شود.

مقدمه: آیا یادگیری عمیق به دیواره‌ای نزدیک می‌شود؟

یادگیری عمیق، علیرغم محبوبیت انفجاری اخیرش، ریشه‌های تاریخی چند دهه‌ای دارد. این حوزه تا پنج سال پیش توجه نسبتاً کمی را به خود جلب کرده بود تا اینکه همه چیز در سال 2012 با انتشار مقالات بسیار تأثیرگذاری مانند «طبقه‌بندی ImageNet با شبکه‌های عصبی کانولوشنی عمیق» اثر کریزفسکی، سوتسکور و هینتون که به نتایج پیشرفته‌ای در چالش تشخیص اشیاء معروف به ImageNet دست یافت، تغییر کرد.

پیش از پایان سال، یادگیری عمیق به صفحه اول نیویورک تایمز راه یافت و به سرعت به شناخته‌شده‌ترین تکنیک در هوش مصنوعی تبدیل شد. اگرچه ایده کلی آموزش شبکه‌های عصبی با چندین لایه جدید نبود، اما افزایش قدرت محاسباتی و در دسترس بودن داده‌ها برای اولین بار یادگیری عمیق را به طور عملی ممکن ساخت.

یادگیری عمیق از آن زمان تاکنون نتایج پیشرفته متعددی در حوزه‌هایی مانند تشخیص گفتار، تشخیص تصویر و ترجمه زبان ارائه داده و نقش مهمی در طیف وسیعی از کاربردهای فعلی هوش مصنوعی ایفا می‌کند. شرکت‌ها میلیاردها دلار برای جذب استعدادهای یادگیری عمیق سرمایه‌گذاری کرده‌اند، با مدافعان برجسته‌ای مانند اندرو انگ که پیشنهاد می‌کنند «اگر یک فرد معمولی بتواند یک کار ذهنی را در کمتر از یک ثانیه انجام دهد، احتمالاً می‌توانیم آن را با هوش مصنوعی، حالا یا در آینده نزدیک، خودکار کنیم.»

با این حال، شواهد نشان می‌دهد که یادگیری عمیق ممکن است در آستانه رسیدن به یک دیواره باشد. همانطور که فرانسوا شوله، نویسنده کتابخانه شبکه عصبی Keras، در دسامبر 2017 خاطرنشان کرد: «برای اکثر مشکلاتی که یادگیری عمیق راه‌حل‌های به طور تحول‌آفرینی بهتری ارائه داده (بینایی، گفتار)، ما در سال‌های 2016-2017 وارد قلمرو بازده نزولی شده‌ایم.» حتی جف هینتون، پدربزرگ یادگیری عمیق، تصدیق می‌کند که «آینده به یک دانشجوی تحصیلات تکمیلی بستگی دارد که به شدت نسبت به همه چیزهایی که من گفته‌ام مشکوک است.»

این مقاله旨在 تعدیل شور و شوق غیرمنطقی در عین بررسی نیازهای این حوزه برای پیشرفت است، و هم پژوهشگران فنی و هم مصرف‌کنندگان هوش مصنوعی با پیشینه فنی کمتر که مایلند بدانند این حوزه به کجا می‌رود را مورد خطاب قرار می‌دهد.

یادگیری عمیق چیست و در چه حوزه‌هایی موفق عمل می‌کند

یادگیری عمیق به دسته‌ای از تکنیک‌های یادگیری ماشین اشاره دارد که از چندین لایه واحد پردازش غیرخطی برای استخراج و تبدیل ویژگی‌ها استفاده می‌کنند. هر لایه متوالی از خروجی لایه قبلی به عنوان ورودی استفاده می‌کند و به سیستم اجازه می‌دهد بازنمایی‌هایی از داده را با سطوح چندگانه انتزاع یاد بگیرد.

قدرت اساسی یادگیری عمیق در توانایی آن برای کشف ساختار پیچیده در مجموعه داده‌های بزرگ از طریق الگوریتم پس‌انتشار نهفته است، که از نزول گرادیان برای تنظیم وزن اتصالات بین نورون‌ها استفاده می‌کند. این رویکرد برای مشکلاتی که در آن:

نگاشت ورودی-خروجی پیچیده است اما می‌توان از داده‌های فراوان یاد گرفت
ویژگی‌های مورد نیاز برای کار به راحتی توسط مهندسان انسانی مشخص نمی‌شوند
مشکل شامل وظایف ادراکی مشابه آنچه انسان‌ها و حیوانات به طور طبیعی حل می‌کنند است

یادگیری عمیق در چندین حوزه کلیدی موفقیت‌های قابل توجهی به دست آورده است:

بینایی رایانه‌ای

شبکه‌های عصبی کانولوشنی (CNNs) انقلابی در بینایی رایانه‌ای ایجاد کرده‌اند و به عملکردی در سطح انسان در وظایفی مانند طبقه‌بندی تصویر، تشخیص اشیاء و تشخیص چهره دست یافته‌اند. پیشرفت ImageNet در سال 2012 نشان داد که شبکه‌های عمیق می‌توانند به طور قابل توجهی از رویکردهای قبلی بهتر عمل کنند و نرخ خطای 5 رده برتر را از 26% به 15% کاهش دهند.

تشخیص گفتار

شبکه‌های عصبی بازگشتی (RNNs) و شبکه‌های حافظه کوتاه‌مدت بلند (LSTM) سیستم‌های تشخیص گفتار را به طور چشمگیری بهبود بخشیده‌اند، با نرخ خطا که در محیط‌های کنترل شده به سطح نزدیک به انسان رسیده است. شرکت‌هایی مانند گوگل، اپل و آمازون این فناوری‌ها را در دستیارهای مجازی خود ادغام کرده‌اند.

پردازش زبان طبیعی

مدل‌های دنباله به دنباله و مکانیزم‌های توجه، پیشرفت‌های قابل توجهی در ترجمه ماشینی، خلاصه‌سازی متن و سیستم‌های پاسخ به سوال امکان‌پذیر ساخته‌اند. سیستم ترجمه ماشینی عصبی گوگل نمونه برجسته‌ای از این پیشرفت است.

بازی‌های رایانه‌ای

یادگیری تقویتی عمیق، سیستم‌هایی تولید کرده است که از متخصصان انسانی در بازی‌های پیچیده مانند Go، شطرنج و بازی‌های ویدیویی پیشی می‌گیرند. AlphaGo شرکت DeepMind و ربات‌های Dota 2 شرکت OpenAI پتانسیل ترکیب یادگیری عمیق با یادگیری تقویتی را نشان می‌دهند.

نخ تسبیح مشترک در این موفقیت‌ها، توانایی یادگیری عمیق در یادگیری خودکار ویژگی‌های مرتبط از داده‌های خام است، که نیاز به