सारांश

हालांकि डीप लर्निंग की ऐतिहासिक जड़ें दशकों पुरानी हैं, लेकिन पाँच साल पहले तक न तो 'डीप लर्निंग' शब्द और न ही यह दृष्टिकोण लोकप्रिय था, जब 2012 में क्रिज़ेव्स्की, सुत्सकेवर और हिंटन के इमेजनेट मॉडल जैसे शोध पत्रों ने इस क्षेत्र में नई जान फूंकी। अगले पाँच वर्षों में इस क्षेत्र ने क्या खोजा? स्पीच रिकग्निशन, इमेज रिकग्निशन और गेम प्लेइंग जैसे क्षेत्रों में महत्वपूर्ण प्रगति और मीडिया में उत्साह के बीच, मैं डीप लर्निंग के लिए दस चिंताएँ प्रस्तुत करता हूँ और सुझाव देता हूँ कि यदि हमें आर्टिफिशियल जनरल इंटेलिजेंस प्राप्त करनी है तो डीप लर्निंग को अन्य तकनीकों के साथ पूरक किया जाना चाहिए।

परिचय: क्या डीप लर्निंग एक दीवार के करीब पहुँच रही है?

डीप लर्निंग, हाल के वर्षों में अपनी लोकप्रियता में विस्फोट के बावजूद, अपनी ऐतिहासिक जड़ें दशकों पीछे तक फैलाती है। इस क्षेत्र ने पाँच साल पहले तक अपेक्षाकृत कम ध्यान आकर्षित किया, जब 2012 में सब कुछ बदल गया, क्रिज़ेव्स्की, सुत्सकेवर और हिंटन के 'इमेजनेट क्लासिफिकेशन विद डीप कन्वोल्यूशनल न्यूरल नेटवर्क्स' जैसे अत्यधिक प्रभावशाली शोध पत्रों के प्रकाशन के साथ, जिसने इमेजनेट नामक ऑब्जेक्ट रिकग्निशन चैलेंज में अत्याधुनिक परिणाम हासिल किए।

वर्ष समाप्त होने से पहले ही, डीप लर्निंग न्यूयॉर्क टाइम्स के फ्रंट पेज पर पहुँच गई, और यह तेजी से आर्टिफिशियल इंटेलिजेंस की सबसे प्रसिद्ध तकनीक बन गई। हालांकि कई परतों के साथ न्यूरल नेटवर्क को प्रशिक्षित करने का सामान्य विचार नया नहीं था, लेकिन कम्प्यूटेशनल शक्ति और डेटा उपलब्धता में वृद्धि ने पहली बार डीप लर्निंग को वास्तव में व्यावहारिक बना दिया।

डीप लर्निंग ने तब से स्पीच रिकग्निशन, इमेज रिकग्निशन और लैंग्वेज ट्रांसलेशन जैसे डोमेन में कई अत्याधुनिक परिणाम दिए हैं, और वर्तमान एआई एप्लिकेशन्स की एक विस्तृत श्रृंखला में भूमिका निभाती है। कॉर्पोरेट्स ने डीप लर्निंग टैलेंट के लिए लड़ने में अरबों डॉलर का निवेश किया है, जिसमें एंड्रयू एंग जैसे प्रमुख समर्थकों ने सुझाव दिया है कि 'यदि एक सामान्य व्यक्ति एक सेकंड से कम समय में किसी मानसिक कार्य को कर सकता है, तो हम संभवतः अब या निकट भविष्य में एआई का उपयोग करके इसे स्वचालित कर सकते हैं।'

हालाँकि, सबूत बताते हैं कि डीप लर्निंग एक दीवार के करीब पहुँच रही हो सकती है। जैसा कि केरस न्यूरल नेटवर्क लाइब्रेरी के लेखक फ्रांस्वा चोलेट ने दिसंबर 2017 में उल्लेख किया था: 'अधिकांश समस्याओं के लिए जहाँ डीप लर्निंग ने परिवर्तनकारी रूप से बेहतर समाधान सक्षम किए हैं (विजन, स्पीच), हम 2016-2017 में घटते रिटर्न के क्षेत्र में प्रवेश कर चुके हैं।' यहाँ तक कि डीप लर्निंग के जनक जेफ हिंटन भी स्वीकार करते हैं कि 'भविष्य किसी ऐसे ग्रेजुएट छात्र पर निर्भर करता है जो मेरे द्वारा कही गई हर बात पर गहरा संदेह रखता है।'

यह पेपर तकनीकी शोधकर्ताओं और कम तकनीकी पृष्ठभूमि वाले एआई उपभोक्ताओं दोनों को संबोधित करते हुए, अतार्किक उत्साह को संतुलित करने का लक्ष्य रखता है, जो यह समझना चाहते हैं कि यह क्षेत्र किस दिशा में आगे बढ़ रहा है।

डीप लर्निंग क्या है और इसकी क्या विशेषताएँ हैं

डीप लर्निंग मशीन लर्निंग तकनीकों के एक वर्ग को संदर्भित करती है जो फीचर एक्सट्रक्शन और ट्रांसफॉर्मेशन के लिए नॉनलाइनियर प्रोसेसिंग यूनिट्स की कई परतों का उपयोग करती हैं। प्रत्येक क्रमिक परत पिछली परत के आउटपुट को इनपुट के रूप में उपयोग करती है, जो सिस्टम को डेटा के प्रतिनिधित्व को कई स्तरों की अमूर्तता के साथ सीखने की अनुमति देती है।

डीप लर्निंग की मौलिक शक्ति बड़े डेटा सेट में जटिल संरचना की खोज करने की इसकी क्षमता में निहित है, जो बैकप्रोपगेशन एल्गोरिदम के माध्यम से होती है, जो न्यूरॉन्स के बीच कनेक्शन के वजन को समायोजित करने के लिए ग्रेडिएंट डिसेंट का उपयोग करती है। यह दृष्टिकोण उन समस्याओं के लिए असाधारण रूप से शक्तिशाली साबित हुआ है जहाँ:

इनपुट-आउटपुट मैपिंग जटिल है लेकिन प्रचुर मात्रा में डेटा से सीखी जा सकती है
कार्य के लिए आवश्यक फीचर्स मानव इंजीनियरों द्वारा आसानी से निर्दिष्ट नहीं किए जा सकते
समस्या में उन धारणात्मक कार्यों शामिल हैं जिन्हें मनुष्य और जानवर स्वाभाविक रूप से हल करते हैं

डीप लर्निंग ने कई प्रमुख डोमेन में उल्लेखनीय सफलता हासिल की है:

कंप्यूटर विजन

कन्वोल्यूशनल न्यूरल नेटवर्क्स (CNNs) ने कंप्यूटर विजन में क्रांति ला दी है, जिसने इमेज क्लासिफिकेशन, ऑब्जेक्ट डिटेक्शन और फेशियल रिकग्निशन जैसे कार्यों पर मानव-स्तरीय प्रदर्शन हासिल किया है। 2012 की इमेजनेट सफलता ने प्रदर्शित किया कि डीप नेटवर्क पिछले दृष्टिकोणों को महत्वपूर्ण रूप से पछाड़ सकते हैं, जिसने टॉप-5 एरर रेट को 26% से घटाकर 15% कर दिया।

स्पीच रिकग्निशन

रिकरंट न्यूरल नेटवर्क्स (RNNs) और लॉन्ग शॉर्ट-टर्म मेमोरी (LSTM) नेटवर्क्स ने स्पीच रिकग्निशन सिस्टम में नाटकीय रूप से सुधार किया है, जिसमें नियंत्रित वातावरण में एरर रेट मानव-स्तर के करीब पहुँच गए हैं। गूगल, एप्पल और अमेज़न जैसी कंपनियों ने इन तकनीकों को अपने वर्चुअल असिस्टेंट में एकीकृत किया है।

नेचुरल लैंग्वेज प्रोसेसिंग

सीक्वेंस-टू-सीक्वेंस मॉडल और अटेंशन मैकेनिज्म ने मशीन ट्रांसलेशन, टेक्स्ट सारांशीकरण और प्रश्नोत्तर प्रणालियों में महत्वपूर्ण प्रगति सक्षम की है। गूगल की न्यूरल मशीन ट्रांसलेशन सिस्टम इस प्रगति का एक प्रमुख उदाहरण है।

गेम प्लेइंग

डीप रीइन्फोर्समेंट लर्निंग ने ऐसी प्रणालियाँ तैयार की हैं जो गो, शतरंज और वीडियो गेम जैसे जटिल खेलों में मानव विशेषज्ञों को पार करती हैं। डीपमाइंड का अल्फागो और ओपनएआई का डोटा 2 बॉट डीप लर्निंग को रीइन्फोर्समेंट लर्निंग के साथ जोड़ने की क्षमता का प्रदर्शन करते हैं।

इन सफलताओं में सामान्य धागा डीप लर्निंग की कच्चे डेटा से प्रासंगिक फीचर्स को स्वचालित रूप से सीखने की क्षमता है, जिससे मैन्युअल फीचर इंजीनियरिंग की आवश्यकता समाप्त हो जाती है।