چکیده
اگرچه یادگیری عمیق ریشههای تاریخی چند دههای دارد، اما نه این اصطلاح و نه این رویکرد تا پنج سال پیش چندان شناخته شده نبود، تا زمانی که این حوزه با انتشار مقالاتی مانند مدل شبکه عمیق کلاسیک کریزفسکی، سوتسکور و هینتون در سال 2012 برای ImageNet دوباره احیا شد. این حوزه در پنج سال پس از آن چه دستاوردهایی داشته است؟ در پسزمینه پیشرفتهای قابل توجه در حوزههایی مانند تشخیص گفتار، تشخیص تصویر و بازیهای رایانهای، و با وجود شور و اشتیاق فراوان در رسانهها، من ده نگرانی درباره یادگیری عمیق مطرح میکنم و پیشنهاد میدهم که برای دستیابی به هوش مصنوعی عمومی، یادگیری عمیق باید با سایر تکنیکها تکمیل شود.
مقدمه: آیا یادگیری عمیق به دیوارهای نزدیک میشود؟
یادگیری عمیق، علیرغم محبوبیت انفجاری اخیرش، ریشههای تاریخی چند دههای دارد. این حوزه تا پنج سال پیش توجه نسبتاً کمی را به خود جلب کرده بود تا اینکه همه چیز در سال 2012 با انتشار مقالات بسیار تأثیرگذاری مانند «طبقهبندی ImageNet با شبکههای عصبی کانولوشنی عمیق» اثر کریزفسکی، سوتسکور و هینتون که به نتایج پیشرفتهای در چالش تشخیص اشیاء معروف به ImageNet دست یافت، تغییر کرد.
پیش از پایان سال، یادگیری عمیق به صفحه اول نیویورک تایمز راه یافت و به سرعت به شناختهشدهترین تکنیک در هوش مصنوعی تبدیل شد. اگرچه ایده کلی آموزش شبکههای عصبی با چندین لایه جدید نبود، اما افزایش قدرت محاسباتی و در دسترس بودن دادهها برای اولین بار یادگیری عمیق را به طور عملی ممکن ساخت.
یادگیری عمیق از آن زمان تاکنون نتایج پیشرفته متعددی در حوزههایی مانند تشخیص گفتار، تشخیص تصویر و ترجمه زبان ارائه داده و نقش مهمی در طیف وسیعی از کاربردهای فعلی هوش مصنوعی ایفا میکند. شرکتها میلیاردها دلار برای جذب استعدادهای یادگیری عمیق سرمایهگذاری کردهاند، با مدافعان برجستهای مانند اندرو انگ که پیشنهاد میکنند «اگر یک فرد معمولی بتواند یک کار ذهنی را در کمتر از یک ثانیه انجام دهد، احتمالاً میتوانیم آن را با هوش مصنوعی، حالا یا در آینده نزدیک، خودکار کنیم.»
با این حال، شواهد نشان میدهد که یادگیری عمیق ممکن است در آستانه رسیدن به یک دیواره باشد. همانطور که فرانسوا شوله، نویسنده کتابخانه شبکه عصبی Keras، در دسامبر 2017 خاطرنشان کرد: «برای اکثر مشکلاتی که یادگیری عمیق راهحلهای به طور تحولآفرینی بهتری ارائه داده (بینایی، گفتار)، ما در سالهای 2016-2017 وارد قلمرو بازده نزولی شدهایم.» حتی جف هینتون، پدربزرگ یادگیری عمیق، تصدیق میکند که «آینده به یک دانشجوی تحصیلات تکمیلی بستگی دارد که به شدت نسبت به همه چیزهایی که من گفتهام مشکوک است.»
این مقاله旨在 تعدیل شور و شوق غیرمنطقی در عین بررسی نیازهای این حوزه برای پیشرفت است، و هم پژوهشگران فنی و هم مصرفکنندگان هوش مصنوعی با پیشینه فنی کمتر که مایلند بدانند این حوزه به کجا میرود را مورد خطاب قرار میدهد.
یادگیری عمیق چیست و در چه حوزههایی موفق عمل میکند
یادگیری عمیق به دستهای از تکنیکهای یادگیری ماشین اشاره دارد که از چندین لایه واحد پردازش غیرخطی برای استخراج و تبدیل ویژگیها استفاده میکنند. هر لایه متوالی از خروجی لایه قبلی به عنوان ورودی استفاده میکند و به سیستم اجازه میدهد بازنماییهایی از داده را با سطوح چندگانه انتزاع یاد بگیرد.
قدرت اساسی یادگیری عمیق در توانایی آن برای کشف ساختار پیچیده در مجموعه دادههای بزرگ از طریق الگوریتم پسانتشار نهفته است، که از نزول گرادیان برای تنظیم وزن اتصالات بین نورونها استفاده میکند. این رویکرد برای مشکلاتی که در آن:
- نگاشت ورودی-خروجی پیچیده است اما میتوان از دادههای فراوان یاد گرفت
- ویژگیهای مورد نیاز برای کار به راحتی توسط مهندسان انسانی مشخص نمیشوند
- مشکل شامل وظایف ادراکی مشابه آنچه انسانها و حیوانات به طور طبیعی حل میکنند است
یادگیری عمیق در چندین حوزه کلیدی موفقیتهای قابل توجهی به دست آورده است:
بینایی رایانهای
شبکههای عصبی کانولوشنی (CNNs) انقلابی در بینایی رایانهای ایجاد کردهاند و به عملکردی در سطح انسان در وظایفی مانند طبقهبندی تصویر، تشخیص اشیاء و تشخیص چهره دست یافتهاند. پیشرفت ImageNet در سال 2012 نشان داد که شبکههای عمیق میتوانند به طور قابل توجهی از رویکردهای قبلی بهتر عمل کنند و نرخ خطای 5 رده برتر را از 26% به 15% کاهش دهند.
تشخیص گفتار
شبکههای عصبی بازگشتی (RNNs) و شبکههای حافظه کوتاهمدت بلند (LSTM) سیستمهای تشخیص گفتار را به طور چشمگیری بهبود بخشیدهاند، با نرخ خطا که در محیطهای کنترل شده به سطح نزدیک به انسان رسیده است. شرکتهایی مانند گوگل، اپل و آمازون این فناوریها را در دستیارهای مجازی خود ادغام کردهاند.
پردازش زبان طبیعی
مدلهای دنباله به دنباله و مکانیزمهای توجه، پیشرفتهای قابل توجهی در ترجمه ماشینی، خلاصهسازی متن و سیستمهای پاسخ به سوال امکانپذیر ساختهاند. سیستم ترجمه ماشینی عصبی گوگل نمونه برجستهای از این پیشرفت است.
بازیهای رایانهای
یادگیری تقویتی عمیق، سیستمهایی تولید کرده است که از متخصصان انسانی در بازیهای پیچیده مانند Go، شطرنج و بازیهای ویدیویی پیشی میگیرند. AlphaGo شرکت DeepMind و رباتهای Dota 2 شرکت OpenAI پتانسیل ترکیب یادگیری عمیق با یادگیری تقویتی را نشان میدهند.
نخ تسبیح مشترک در این موفقیتها، توانایی یادگیری عمیق در یادگیری خودکار ویژگیهای مرتبط از دادههای خام است، که نیاز به