১. ভূমিকা
ডিপ লার্নিং সাধারণত উল্লেখযোগ্য পরিমাণ টাস্ক-সুনির্দিষ্ট ডেটা এবং কম্পিউটেশনাল সম্পদের প্রয়োজন হয়, যা নতুন টাস্কের জন্য অত্যন্ত ব্যয়বহুল হতে পারে। ট্রান্সফার লার্নিং একটি প্রাক-প্রশিক্ষণ পর্যায় দিয়ে টাস্ক-সুনির্দিষ্ট প্রয়োজনীয়তাগুলো প্রতিস্থাপনের মাধ্যমে এর সমাধান দেয়। এই পদ্ধতিতে, একটি নেটওয়ার্ক প্রথমে একটি বৃহৎ, সাধারণ ডেটাসেটে প্রশিক্ষিত হয়, এবং তারপর এর ওয়েটগুলো পরবর্তী টাস্কগুলো শুরু করতে ব্যবহৃত হয়, যা কম ডেটা পয়েন্ট এবং হ্রাসকৃত কম্পিউটেশনাল চাহিদা নিয়ে কার্যকর শেখার সুযোগ দেয়। এই গবেষণাপত্রটি বৃহৎ সুপারভাইজড সোর্স ডেটাসেটে প্রাক-প্রশিক্ষণ এবং টার্গেট টাস্কে মডেল ওয়েট ফাইন-টিউন করার সহজ প্যারাডাইমটি পুনর্বিবেচনা করে। নতুন উপাদান বা জটিলতা প্রবর্তনের পরিবর্তে, লেখকরা একটি মিনিমালিস্টিক রেসিপি প্রদান করতে চান যা সাবধানে নির্বাচিত বিদ্যমান কৌশলগুলো কাজে লাগিয়ে বিস্তৃত পরিসরের টাস্কগুলোতে চমৎকার পারফরম্যান্স অর্জন করে। এই রেসিপিটিকে "বিগ ট্রান্সফার" (বিআইটি) নামে অভিহিত করা হয়।
বিআইটি পদ্ধতিতে বিভিন্ন স্কেলের ডেটাসেটে নেটওয়ার্ক প্রাক-প্রশিক্ষণ জড়িত, যেখানে সবচেয়ে বড় মডেল, বিআইটি-এল, জেএফটি-৩০০এম ডেটাসেটে প্রশিক্ষিত হয় যাতে ৩০০ মিলিয়ন নয়েজি লেবেলযুক্ত ইমেজ রয়েছে। স্থানান্তরিত মডেলগুলো বিভিন্ন টাস্কে মূল্যায়ন করা হয়, যার মধ্যে রয়েছে ইমেজনেটের আইএলএসভিআরসি-২০১২, সিআইএফএআর-১০/১০০, অক্সফোর্ড-আইআইআইটি পেট, অক্সফোর্ড ফ্লাওয়ার্স-১০২, এবং ভিজ্যুয়াল টাস্ক অ্যাডাপ্টেশন বেঞ্চমার্ক (ভিটিএবি), যা ১৯টি বিভিন্ন ডেটাসেট নিয়ে গঠিত। বিআইটি-এল এই অনেক টাস্কেই সর্বোচ্চ সক্ষমতা অর্জন করে এবং এমনকি যখন খুব সীমিত ডাউনস্ট্রিম ডেটা উপলব্ধ থাকে তখনও লক্ষণীয় কার্যকারিতা প্রদর্শন করে। অতিরিক্তভাবে, বিআইটি-এম মডেল, যা পাবলিক ইমেজনেট-২১কে ডেটাসেটে প্রাক-প্রশিক্ষিত, জনপ্রিয় আইএলএসভিআরসি-২০১২ প্রাক-প্রশিক্ষণের তুলনায় উল্লেখযোগ্য উন্নতি দেখায়। বিআইটি-এর একটি মূল সুবিধা হল যে এটির মাত্র একটি প্রাক-প্রশিক্ষণ পর্যায়ের প্রয়োজন হয়, এবং পরবর্তীতে ডাউনস্ট্রিম টাস্কে ফাইন-টিউনিং কম্পিউটেশনালভাবে সাশ্রয়ী, যা অন্যান্য সর্বোচ্চ সক্ষমতা সম্পন্ন পদ্ধতির থেকে ভিন্ন যেগুলোর নির্দিষ্ট টাস্কের উপর ভিত্তি করে সাপোর্ট ডেটাতে ব্যাপক প্রশিক্ষণের প্রয়োজন হয়।
২. বিগ ট্রান্সফার পদ্ধতি
বিগ ট্রান্সফার (বিআইটি) পদ্ধতি কয়েকটি সাবধানে নির্বাচিত উপাদানের উপর নির্মিত যা ট্রান্সফার লার্নিংয়ের জন্য একটি কার্যকর নেটওয়ার্ক তৈরি করার জন্য অপরিহার্য। এই উপাদানগুলোকে আপস্ট্রিম (প্রাক-প্রশিক্ষণের সময় ব্যবহৃত) এবং ডাউনস্ট্রিম (ফাইন-টিউনিংয়ের সময় ব্যবহৃত) উপাদান হিসেবে শ্রেণীবদ্ধ করা হয়।
২.১ আপস্ট্রিম উপাদান
বৃহৎ-স্কেল প্রাক-প্রশিক্ষণ: বিআইটি প্রাক-প্রশিক্ষণের জন্য বৃহৎ-স্কেল সুপারভাইজড ডেটাসেট ব্যবহার করে। সবচেয়ে বড় মডেল, বিআইটি-এল, জেএফটি-৩০০এম ডেটাসেটে প্রশিক্ষিত হয়, যাতে ৩০০ মিলিয়ন নয়েজি লেবেলযুক্ত ইমেজ রয়েছে। আরেকটি মডেল, বিআইটি-এম, ইমেজনেট-২১কে ডেটাসেটে প্রশিক্ষিত হয়। এত বিস্তৃত ডেটাসেট ব্যবহার মডেলটিকে সমৃদ্ধ এবং সাধারণ ভিজ্যুয়াল উপস্থাপনা শেখার সুযোগ দেয় যা বিভিন্ন ডাউনস্ট্রিম টাস্কে স্থানান্তরযোগ্য।
আর্কিটেকচার এবং প্রশিক্ষণ হাইপারপ্যারামিটার: লেখকরা উপযুক্ত আর্কিটেকচার এবং প্রশিক্ষণ হাইপারপ্যারামিটার নির্বাচনের গুরুত্বের উপর জোর দেন। তারা প্রাক-প্রশিক্ষণের পারফরম্যান্স অপ্টিমাইজ করার জন্য মডেল স্কেল, আর্কিটেকচার পছন্দ, এবং হাইপারপ্যারামিটার সেটিংসের মধ্যকার আন্তঃসম্পর্ক অন্বেষণ করে। উচ্চ স্থানান্তর কর্মক্ষমতায় অবদান রাখা মূল কারণগুলো চিহ্নিত করতে বিশদ বিশ্লেষণ করা হয়, নিশ্চিত করা হয় যে মডেলটি কার্যকরভাবে ভিজ্যুয়াল বৈশিষ্ট্যগুলো ক্যাপচার এবং সাধারণীকরণ করতে পারে।
২.২ ডাউনস্ট্রিম উপাদান
ফাইন-টিউনিং প্রোটোকল: প্রাক-প্রশিক্ষণের পরে, মডেলটিকে টার্গেট টাস্কে ফাইন-টিউন করা হয়। বিআইটি একটি সহজ এবং দক্ষ ফাইন-টিউনিং প্রোটোকল ব্যবহার করে যার ন্যূনতম হাইপারপ্যারামিটার টিউনিং প্রয়োজন। লেখকরা স্থানান্তরের সময় হাইপারপ্যারামিটার সেট করার জন্য একটি হিউরিস্টিক প্রস্তাব করেন, যা তাদের বিভিন্ন মূল্যায়ন স্যুট জুড়ে মজবুতভাবে কাজ করে। এই হিউরিস্টিকটি অভিযোজন প্রক্রিয়াকে সরল করে এবং প্রতিটি নতুন টাস্কের জন্য হাইপারপ্যারামিটার অপ্টিমাইজেশনের সাথে সম্পর্কিত কম্পিউটেশনাল খরচ হ্রাস করে।
বিভিন্ন ডেটা রেজিম হ্যান্ডলিং: বিআইটি বিস্তৃত পরিসরের ডেটা রেজিম জুড়ে ভালো পারফরম্যান্স করার জন্য ডিজাইন করা হয়েছে, ক্লাস প্রতি মাত্র একটি উদাহরণ সহ ফিউ-শট লার্নিং পরিস্থিতি থেকে শুরু করে সর্বমোট ১ মিলিয়ন উদাহরণ পর্যন্ত বৃহৎ-স্কেল ডেটাসেট পর্যন্ত। এই পদ্ধতিতে ডেটা-দুর্লভ পরিবেশে কার্যকর ফাইন-টিউনিংয়ের কৌশল অন্তর্ভুক্ত রয়েছে, নিশ্চিত করা হয় যে সীমিত লেবেলযুক্ত ডেটা নিয়েও মডেলটি উচ্চ কর্মক্ষমতা বজায় রাখে।
৩. পরীক্ষামূলক ফলাফল
বিআইটি মডেলগুলো ট্রান্সফার লার্নিংয়ে তাদের কার্যকারিতা প্রদর্শনের জন্য বিভিন্ন বেঞ্চমার্কে মূল্যায়ন করা হয়। পরীক্ষাগুলো একাধিক ডেটাসেট এবং ডেটা রেজিম কভার করে, পদ্ধতিটির রোবাস্টনেস এবং বহুমুখীতাকে হাইলাইট করে।
আইএলএসভিআরসি-২০১২
বিআইটি-এল সম্পূর্ণ ডেটাসেটে ৮৭.৫% শীর্ষ-১ নির্ভুলতা অর্জন করে এবং ক্লাস প্রতি মাত্র ১০টি উদাহরণ নিয়ে ৭৬.৮% অর্জন করে।
সিআইএফএআর-১০
বিআইটি-এল সম্পূর্ণ ডেটাসেটে ৯৯.৪% নির্ভুলতা অর্জন করে এবং ক্লাস প্রতি ১০টি উদাহরণ নিয়ে ৯৭.০% অর্জন করে।
সিআইএফএআর-১০০
মডেলটি শক্তিশালী পারফরম্যান্স দেখায়, সম্পূর্ণ-ডেটা এবং ফিউ-শট সেটিংস উভয় ক্ষেত্রেই উচ্চ নির্ভুলতা হার সহ।
ভিটিএবি বেঞ্চমার্ক
বিআইটি-এল টাস্ক প্রতি মাত্র ১,০০০ নমুনা ব্যবহার করে ১৯-টাস্ক ভিজ্যুয়াল টাস্ক অ্যাডাপ্টেশন বেঞ্চমার্কে ৭৬.৩% নির্ভুলতা অর্জন করে।
৩.১ ফিউ-শট লার্নিংয়ে কর্মক্ষমতা
বিআইটি ফিউ-শট লার্নিং পরিস্থিতিতে উৎকর্ষতা প্রদর্শন করে, যেখানে ক্লাস প্রতি কেবলমাত্র একটি সীমিত সংখ্যক লেবেলযুক্ত উদাহরণ উপলব্ধ থাকে। উদাহরণস্বরূপ, আইএলএসভিআরসি-২০১২-এ ক্লাস প্রতি ১০টি উদাহরণ নিয়ে, বিআইটি-এল ৭৬.৮% নির্ভুলতা অর্জন করে, যা বেসলাইন মডেলগুলোকে উল্লেখযোগ্যভাবে ছাড়িয়ে যায়। একইভাবে, সিআইএফএআর-১০-এ ক্লাস প্রতি ১০টি উদাহরণ নিয়ে, এটি ৯৭.০% নির্ভুলতায় পৌঁছায়।