জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কস: ডিপ লার্নিংয়ের জন্য একটি বিপ্লবী ফ্রেমওয়ার্ক
কম্পিউটার সায়েন্স অ্যান্ড অপারেশনস রিসার্চ ডিপার্টমেন্ট, মন্ট্রিয়াল বিশ্ববিদ্যালয়, মন্ট্রিয়াল, কিউসি এইচ৩সি ৩জে৭
সারসংক্ষেপ
আমরা অ্যাডভারসারিয়াল প্রক্রিয়ার মাধ্যমে জেনারেটিভ মডেল অনুমানের জন্য একটি নতুন ফ্রেমওয়ার্ক প্রস্তাব করছি, যেখানে আমরা একইসাথে দুটি মডেল প্রশিক্ষণ দিঃ একটি জেনারেটিভ মডেল G যা ডেটা বন্টন ক্যাপচার করে, এবং একটি ডিসক্রিমিনেটিভ মডেল D যা একটি নমুনা প্রশিক্ষণ ডেটা থেকে নাকি G থেকে এসেছে তার সম্ভাবনা অনুমান করে। G-এর প্রশিক্ষণ পদ্ধতি হলো D-এর ভুল করার সম্ভাবনা সর্বাধিক করা। এই ফ্রেমওয়ার্কটি একটি মিনিম্যাক্স দুই-খেলোয়াড় গেমের সাথে সামঞ্জস্যপূর্ণ।
ইচ্ছামত ফাংশন G এবং D-এর স্পেসে, একটি অনন্য সমাধান বিদ্যমান, যেখানে G প্রশিক্ষণ ডেটা বন্টন পুনরুদ্ধার করে এবং D সর্বত্র ১/২ এর সমান হয়। যখন G এবং D মাল্টিলেয়ার পারসেপ্ট্রন দ্বারা সংজ্ঞায়িত করা হয়, তখন সম্পূর্ণ সিস্টেমটি ব্যাকপ্রপাগেশন দিয়ে প্রশিক্ষণ দেওয়া যেতে পারে। নমুনা তৈরির সময় বা প্রশিক্ষণের সময় কোনো মার্কভ চেইন বা আনরোলড আনুমানিক ইনফারেন্স নেটওয়ার্কের প্রয়োজন হয় না। পরীক্ষাগুলো জেনারেটেড নমুনার গুণগত ও পরিমাণগত মূল্যায়নের মাধ্যমে ফ্রেমওয়ার্কের সম্ভাবনা প্রদর্শন করে।
১. ভূমিকা
ডিপ লার্নিংয়ের প্রতিশ্রুতি হলো সমৃদ্ধ, শ্রেণিবদ্ধ মডেল আবিষ্কার করা যা কৃত্রিম বুদ্ধিমত্তা অ্যাপ্লিকেশনে সম্মুখীন ডেটার প্রকারের উপর সম্ভাব্যতা বন্টন উপস্থাপন করে, যেমন প্রাকৃতিক ছবি, বক্তৃতা সম্বলিত অডিও ওয়েভফর্ম, এবং প্রাকৃতিক ভাষা কর্পাসে প্রতীক। এখন পর্যন্ত, ডিপ লার্নিংয়ের সবচেয়ে লক্ষণীয় সাফল্যগুলো ডিসক্রিমিনেটিভ মডেল জড়িত, সাধারণত যেগুলো একটি উচ্চ-মাত্রিক, সমৃদ্ধ সংবেদনশীল ইনপুটকে একটি ক্লাস লেবেলে ম্যাপ করে। এই লক্ষণীয় সাফল্যগুলো প্রাথমিকভাবে ব্যাকপ্রপাগেশন এবং ড্রপআউট অ্যালগরিদমের উপর ভিত্তি করে, পিসওয়াইজ লিনিয়ার ইউনিট ব্যবহার করে যাদের বিশেষভাবে ভালো আচরণের গ্রেডিয়েন্ট রয়েছে।
ডিপ জেনারেটিভ মডেলগুলোর কম প্রভাব রয়েছে, সর্বাধিক সম্ভাবনা অনুমান এবং সম্পর্কিত কৌশলে উদ্ভূত অনেক অসাধ্য সম্ভাব্যতা গণনার আনুমানিকতার অসুবিধার কারণে, এবং জেনারেটিভ প্রসঙ্গে পিসওয়াইজ লিনিয়ার ইউনিটের সুবিধা কাজে লাগানোর অসুবিধার কারণে। আমরা একটি নতুন জেনারেটিভ মডেল অনুমান পদ্ধতি প্রস্তাব করছি যা এই অসুবিধাগুলো এড়িয়ে চলে।
জাল নোট-পুলিশ উপমা
প্রস্তাবিত অ্যাডভারসারিয়াল নেটস ফ্রেমওয়ার্কে, জেনারেটিভ মডেলকে একটি প্রতিপক্ষের বিরুদ্ধে প্রতিদ্বন্দ্বিতা করতে হয়ঃ একটি ডিসক্রিমিনেটিভ মডেল যা শেখে একটি নমুনা মডেল বন্টন থেকে নাকি ডেটা বন্টন থেকে এসেছে কিনা তা নির্ধারণ করতে। জেনারেটিভ মডেলকে জাল নোট তৈরির দলের সাথে তুলনা করা যেতে পারে, যারা জাল মুদ্রা তৈরি করে এবং সনাক্ত না হয়ে ব্যবহার করার চেষ্টা করে, অন্যদিকে ডিসক্রিমিনেটিভ মডেল পুলিশের সাথে তুলনীয়, যারা জাল মুদ্রা সনাক্ত করার চেষ্টা করে। এই খেলায় প্রতিযোগিতা উভয় দলকে তাদের পদ্ধতি উন্নত করতে চালিত করে যতক্ষণ না জাল নোটগুলি আসল নোট থেকে আলাদা করা অসম্ভব হয়ে ওঠে।
এই ফ্রেমওয়ার্ক বিভিন্ন ধরনের মডেল এবং অপ্টিমাইজেশন অ্যালগরিদমের জন্য নির্দিষ্ট প্রশিক্ষণ অ্যালগরিদম দিতে পারে। এই নিবন্ধে, আমরা বিশেষ ক্ষেত্রে অনুসন্ধান করি যখন জেনারেটিভ মডেল র্যান্ডম নয়েজ একটি মাল্টিলেয়ার পারসেপ্ট্রনের মধ্য দিয়ে পাঠিয়ে নমুনা তৈরি করে, এবং ডিসক্রিমিনেটিভ মডেলও একটি মাল্টিলেয়ার পারসেপ্ট্রন। আমরা এই বিশেষ ক্ষেত্রটিকে অ্যাডভারসারিয়াল নেটস বলি। এই ক্ষেত্রে, আমরা শুধুমাত্র অত্যন্ত সফল ব্যাকপ্রপাগেশন এবং ড্রপআউট অ্যালগরিদম ব্যবহার করে উভয় মডেল প্রশিক্ষণ দিতে পারি এবং শুধুমাত্র ফরওয়ার্ড প্রপাগেশন ব্যবহার করে জেনারেটিভ মডেল থেকে নমুনা নিতে পারি। কোনো আনুমানিক ইনফারেন্স বা মার্কভ চেইনের প্রয়োজন নেই।