একটি মেশিন লার্নিং মডেলকে প্রশিক্ষণ দেওয়ার সময়, এমন সম্ভাবনা থাকতে পারে যে আমাদের মডেল প্রশিক্ষণ সেটে সঠিকভাবে কাজ করে কিন্তু পরীক্ষার ডেটাতে খারাপভাবে কাজ করে।

এই ক্ষেত্রে, আমাদের ওভারফিটিং নিয়ে সমস্যা হয়; আসলে, ওভারফিটিং তখন ঘটে যখন আমাদের মেশিন লার্নিং মডেল প্রদত্ত ডেটাসেটে উপস্থিত প্রয়োজনীয় ডেটা পয়েন্টের চেয়ে সমস্ত ডেটা পয়েন্ট (বা তার বেশি) কভার করার চেষ্টা করে। এর কারণে, মডেলটি ডেটাসেটে উপস্থিত শব্দ এবং ভুল মানগুলি ক্যাশ করতে শুরু করে এবং এই সমস্ত কারণগুলি মডেলের দক্ষতা এবং নির্ভুলতা হ্রাস করে। নিচের বিষয়গুলো শুরুর দিকের শিক্ষার্থীদের জন্য সহজভাবে উদাহরণসহ আলোচনা করা হলো:
 

রেগুলারাইজেশন (Regularization): মডেলের ওভারফিটিং কমানোর কৌশল (Reduce Overfitting in Models)

মেশিন লার্নিংয়ে, আমরা এমন মডেল তৈরি করি যা ডেটা থেকে শিখে এবং নতুন ডেটা অনুমান (predict) করতে পারে। কিন্তু কখনও কখনও মডেল ট্রেনিং ডেটার সাথে এতটাই “মুখস্থ” করে ফেলে যে নতুন, unseen ডেটার ক্ষেত্রে ভালো পারফর্ম করতে পারে না। এই সমস্যাকে ওভারফিটিং (Overfitting) বলে। রেগুলারাইজেশন হলো ওভারফিটিং কমানোর এবং মডেলকে আরও সাধারণ (generalize) করার একটি শক্তিশালী কৌশল।

সাধারণ লিনিয়ার রিগ্রেশন মডেলে, আমরা একটি সরলরেখা ফিট করি যা ট্রেনিং ডেটা পয়েন্টগুলোর সবচেয়ে কাছাকাছি থাকে। সমীকরণটি হলো:
এখানে, গুলো হলো মডেলের কোয়েফিশিয়েন্ট (coefficients) বা ওজন (weights)। ওভারফিটিং ঘটে যখন এই কোয়েফিশিয়েন্টগুলোর মান খুব বড় হয়ে যায়, যার ফলে মডেল ট্রেনিং ডেটার নয়েজও শিখে ফেলে। রেগুলারাইজেশন এই কোয়েফিশিয়েন্টগুলোর মানকে ছোট করে বা কিছু কোয়েফিশিয়েন্টকে শূন্য করে মডেলকে সরল করে।
 

রেগুলারাইজেশনের পরিচিতি (Introduction to Regularization)

রেগুলারাইজেশন ডেটা সায়েন্স এবং মেশিন লার্নিং-এ ব্যবহৃত একটি কৌশল যা মডেলকে ওভারফিটিং থেকে রক্ষা করে। এটি মডেলের জটিলতা (complexity) হ্রাস করে, বিশেষ করে যখন ডেটাসেটে প্রচুর ফিচার (features) থাকে অথবা ফিচারগুলোর মধ্যে খুব বেশি পারস্পরিক সম্পর্ক থাকে।

কেন রেগুলারাইজেশন প্রয়োজন? যখন একটি মডেল ট্রেনিং ডেটার উপর খুব ভালো পারফর্ম করে কিন্তু টেস্ট ডেটার উপর খারাপ পারফর্ম করে, তখন আমরা বলি মডেলটি ওভারফিট করেছে। ওভারফিটিং মানে মডেল ডেটার ভেতরের “নয়েজ” বা বিশৃঙ্খলাকেও শিখে ফেলেছে, যা নতুন ডেটার ক্ষেত্রে অপ্রাসঙ্গিক। রেগুলারাইজেশন মডেলের কোয়েফিশিয়েন্টগুলোকে “শাস্তি” (penalize) দিয়ে এই সমস্যা সমাধান করে, যার ফলে মডেলের জটিলতা কমে এবং এটি নতুন ডেটার উপর আরও ভালো পারফর্ম করে।
 

রিজ রিগ্রেশন এবং L2 পেনাল্টি (Ridge Regression and L2 Penalty)

রিজ রিগ্রেশন (Ridge Regression) হলো লিনিয়ার রিগ্রেশনের একটি রূপ যেখানে L2 পেনাল্টি যোগ করা হয়। এটি মডেলের কোয়েফিশিয়েন্টগুলোর বর্গের সমষ্টিকে (sum of squared coefficients) মোট লস ফাংশনের সাথে যোগ করে।

লিনিয়ার রিগ্রেশনের লস ফাংশন (সাধারণত মিন স্কোয়ারড এরর – MSE) হলো:
রিজ রিগ্রেশনে, এই MSE এর সাথে একটি পেনাল্টি টার্ম যোগ করা হয়:
এখানে:

  • (ল্যাম্বডা) একটি রেগুলারাইজেশন প্যারামিটার (hyperparameter) যা পেনাল্টির শক্তি নিয়ন্ত্রণ করে। এর মান যত বেশি হবে, কোয়েফিশিয়েন্টগুলো তত বেশি ছোট হবে।
  • হলো সকল কোয়েফিশিয়েন্টের বর্গের সমষ্টি (intercept বাদে)।

L2 পেনাল্টির প্রভাব: L2 পেনাল্টি কোয়েফিশিয়েন্টগুলোকে শূন্যের কাছাকাছি নিয়ে আসে, কিন্তু সম্পূর্ণরূপে শূন্য করে না। এর অর্থ হলো, এটি সমস্ত ফিচারকে মডেলে রাখে কিন্তু তাদের প্রভাব কমিয়ে দেয়। এটি মাল্টিকোলিনিয়ারিটি (multicollinearity) অর্থাৎ যখন স্বাধীন ভেরিয়েবলগুলোর মধ্যে উচ্চ সম্পর্ক থাকে, তখন খুব কার্যকর।
উদাহরণ (পাইথন কোড):

প্লটটি দেখাবে যে (ল্যাম্বডা) এর মান বাড়ার সাথে সাথে কোয়েফিশিয়েন্টগুলো কীভাবে শূন্যের কাছাকাছি আসে কিন্তু সম্পূর্ণরূপে শূন্য হয় না।
 

ল্যাসো রিগ্রেশন এবং L1 পেনাল্টি (Lasso Regression and L1 Penalty)

ল্যাসো রিগ্রেশন (Lasso Regression – Least Absolute Shrinkage and Selection Operator) হলো লিনিয়ার রিগ্রেশনের আরেকটি রূপ যেখানে L1 পেনাল্টি যোগ করা হয়। এটি মডেলের কোয়েফিশিয়েন্টগুলোর পরম মানের সমষ্টিকে (sum of absolute values of coefficients) মোট লস ফাংশনের সাথে যোগ করে। 

এখানে:

  • (ল্যাম্বডা) রিজ রিগ্রেশনের মতোই রেগুলারাইজেশন প্যারামিটার।
  • হলো সকল কোয়েফিশিয়েন্টের পরম মানের সমষ্টি।

L1 পেনাল্টির প্রভাব: L1 পেনাল্টি কোয়েফিশিয়েন্টগুলোকে সম্পূর্ণরূপে শূন্য করতে পারে, যা ফিচার নির্বাচন (feature selection) করতে সাহায্য করে। যেসব ফিচারের মডেলে খুব কম বা কোনো প্রভাব নেই, ল্যাসো তাদের কোয়েফিশিয়েন্ট শূন্য করে দেয়, যার ফলে মডেলটি আরও সরল হয় এবং কম গুরুত্বপূর্ণ ফিচার বাদ পড়ে যায়।
উদাহরণ (পাইথন কোড):

আমি ইতিমধ্যেই লিনিয়ার রিগ্রেশন নিয়ে একটি বিস্তারিত পোস্ট তৈরি করেছি। আপনার বর্তমান অনুরোধটি একটি নতুন বিষয় নিয়ে, “regularization”। আমি এই বিষয়ে একটি বিস্তারিত পোস্ট তৈরি করছি, যা শুরুর দিকের শিক্ষার্থীদের জন্য সহজ হবে এবং এতে পাইথন উদাহরণও থাকবে।
 

রিজ এবং ল্যাসোর তুলনা (Comparing Ridge and Lasso)

বৈশিষ্ট্য রিজ রিগ্রেশন (Ridge) ল্যাসো রিগ্রেশন (Lasso)
পেনাল্টি টার্ম L2 পেনাল্টি () L1 পেনাল্টি ($\sum
কোয়েফিশিয়েন্টের প্রভাব কোয়েফিশিয়েন্টগুলোকে শূন্যের কাছাকাছি নিয়ে আসে, কিন্তু সম্পূর্ণ শূন্য করে না। কিছু কোয়েফিশিয়েন্টকে সম্পূর্ণরূপে শূন্য করে দেয়।
ফিচার নির্বাচন স্বয়ংক্রিয়ভাবে ফিচার নির্বাচন করে না। স্বয়ংক্রিয়ভাবে ফিচার নির্বাচন করে (কম গুরুত্বপূর্ণ ফিচার বাদ দেয়)।
যখন ব্যবহার করবেন যখন অনেক ফিচার গুরুত্বপূর্ণ এবং মাল্টিকোলিনিয়ারিটি থাকে। যখন অল্প সংখ্যক ফিচার গুরুত্বপূর্ণ এবং মডেলকে সরল করতে চান।
জটিলতা নিয়ন্ত্রণ মডেলের জটিলতা কমায়, কিন্তু সব ফিচার রাখে। মডেলের জটিলতা কমায় এবং অপ্রয়োজনীয় ফিচার বাদ দেয়।

আমি ইতিমধ্যেই লিনিয়ার রিগ্রেশন নিয়ে একটি বিস্তারিত পোস্ট তৈরি করেছি। আপনার বর্তমান অনুরোধটি একটি নতুন বিষয় নিয়ে, “regularization”। আমি এই বিষয়ে একটি বিস্তারিত পোস্ট তৈরি করছি, যা শুরুর দিকের শিক্ষার্থীদের জন্য সহজ হবে এবং এতে পাইথন উদাহরণও থাকবে।
 

কখন রিজ বনাম ল্যাসো ব্যবহার করবেন? (When to Use Ridge vs. Lasso?)

রিজ রিগ্রেশন ব্যবহার করবেন যখন:
  • আপনার মডেলে অনেকগুলো ফিচার আছে এবং আপনি বিশ্বাস করেন যে সেগুলোর প্রায় সবগুলোই ফলাফলের জন্য প্রাসঙ্গিক।
  • ফিচারগুলোর মধ্যে মাল্টিকোলিনিয়ারিটি (multicollinearity) আছে (অর্থাৎ, কিছু স্বাধীন ভেরিয়েবল একে অপরের সাথে উচ্চভাবে সম্পর্কিত)। রিজ এই ক্ষেত্রে স্থিতিশীল ফলাফল দেয়।
  • আপনি চান যে সমস্ত ফিচার মডেলে থাকুক, কিন্তু তাদের প্রভাব সীমিত হোক।

বাস্তব পৃথিবীর উদাহরণ (রিজ): ধরুন, আপনি একজন স্টক ট্রেডার এবং একটি স্টকের দাম অনুমান করতে চান। আপনার কাছে ৫০টি ভিন্ন অর্থনৈতিক সূচক (যেমন – GDP, মুদ্রাস্ফীতি, সুদের হার, বেকারত্ব) আছে, এবং আপনি মনে করেন যে এর মধ্যে প্রায় সবগুলোই কোনো না কোনোভাবে স্টকের দামকে প্রভাবিত করে। এখানে রিজ রিগ্রেশন ব্যবহার করা যেতে পারে কারণ এটি কোনো ফিচারকে পুরোপুরি বাদ না দিয়ে তাদের প্রভাবকে ছোট করে, যা মাল্টিকোলিনিয়ারিটির উপস্থিতিতেও মডেলকে স্থিতিশীল রাখে।

ল্যাসো রিগ্রেশন ব্যবহার করবেন যখন:
  • আপনার কাছে প্রচুর সংখ্যক ফিচার আছে এবং আপনি সন্দেহ করেন যে তাদের মধ্যে খুব কম সংখ্যক ফিচারই আসলে ফলাফলের জন্য গুরুত্বপূর্ণ (অর্থাৎ, ফিচার নির্বাচন প্রয়োজন)।
  • আপনি একটি সরল এবং ব্যাখ্যামূলক মডেল তৈরি করতে চান, যেখানে অপ্রয়োজনীয় ফিচারগুলো বাদ দেওয়া হবে।
  • আপনি চান মডেলটি স্বয়ংক্রিয়ভাবে সেরা ফিচার সেট নির্বাচন করুক।

বাস্তব পৃথিবীর উদাহরণ (ল্যাসো): কল্পনা করুন, আপনি একটি ই-কমার্স কোম্পানির ডেটা সায়েন্টিস্ট এবং গ্রাহকের কোনো পণ্য কেনার সম্ভাবনা অনুমান করতে চান। আপনার কাছে গ্রাহকের শত শত তথ্য আছে (যেমন – ব্রাউজিং হিস্টরি, কেনার সংখ্যা, ডেমোগ্রাফিক তথ্য, ক্লিক প্যাটার্ন ইত্যাদি)। এর মধ্যে অনেক তথ্যই হয়তো গ্রাহকের ক্রয়ের সিদ্ধান্তের জন্য অপ্রাসঙ্গিক। ল্যাসো রিগ্রেশন এখানে খুব কার্যকর হবে কারণ এটি স্বয়ংক্রিয়ভাবে সেই অপ্রাসঙ্গিক ফিচারগুলোর কোয়েফিশিয়েন্ট শূন্য করে দেবে এবং শুধুমাত্র সবচেয়ে গুরুত্বপূর্ণ ফিচারগুলো মডেলে রাখবে, যা মডেলকে আরও ব্যাখ্যামূলক এবং দক্ষ করে তুলবে।

 রেগুলারাইজেশন হলো মেশিন লার্নিং মডেলের ওভারফিটিং কমানোর একটি অত্যাবশ্যকীয় কৌশল। রিজ (L2) এবং ল্যাসো (L1) এই কৌশলটির দুটি ভিন্ন প্রয়োগ, যা যথাক্রমে কোয়েফিশিয়েন্টগুলোকে শূন্যের কাছাকাছি নিয়ে আসে এবং কিছু কোয়েফিশিয়েন্টকে সম্পূর্ণরূপে শূন্য করে। আপনার ডেটাসেট এবং মডেলের লক্ষ্যের উপর নির্ভর করে সঠিক রেগুলারাইজেশন পদ্ধতি নির্বাচন করা গুরুত্বপূর্ণ।

Leave a Comment