মেশিন লার্নিং (Machine Learning) এ এমন অনেক সমস্যা আছে যেখানে আমাদের উত্তরটা “হ্যাঁ” অথবা “না” টাইপের কিছু একটা হয়। যেমন:

  • একজন গ্রাহক কি একটি পণ্য কিনবেন নাকি কিনবেন না?
  • একটি ইমেল কি স্প্যাম নাকি হ্যাম?
  • একজন রোগী কি একটি নির্দিষ্ট রোগে আক্রান্ত নাকি নন?

এই ধরনের সমস্যাগুলোকে বাইনারি ক্লাসিফিকেশন (Binary Classification) সমস্যা বলা হয়। আর এই ধরনের সমস্যার সমাধানের জন্য একটি খুব জনপ্রিয় এবং শক্তিশালী অ্যালগরিদম হলো লজিস্টিক রিগ্রেশন (Logistic Regression)। নাম “রিগ্রেশন” হলেও এটি আসলে একটি ক্লাসিফিকেশন অ্যালগরিদম। 

লজিস্টিক রিগ্রেশন (Logistic Regression) একটি সহজবোধ্য, কার্যকর এবং বহুমুখী ক্লাসিফিকেশন অ্যালগরিদম। এর সম্ভাব্যতা-ভিত্তিক আউটপুট এবং ব্যাখ্যার সুবিধা এটিকে বিভিন্ন বাস্তব-বিশ্বের সমস্যার জন্য একটি চমৎকার পছন্দ করে তোলে। এর সীমাবদ্ধতাগুলো বুঝলে এবং প্রয়োজনে অন্যান্য জটিল মডেল ব্যবহার করলে, লজিস্টিক রিগ্রেশন আপনার মেশিন লার্নিং টুলকিটে একটি অপরিহার্য হাতিয়ার হতে পারে।
 

লজিস্টিক রিগ্রেশন (Logistic Regression) কী?

লজিস্টিক রিগ্রেশন একটি স্ট্যাটিস্টিকাল মডেল যা দুটি সম্ভাব্য ফলাফলের (যেমন, 0 বা 1) মধ্যে একটি ইভেন্টের সম্ভাবনা অনুমান করতে ব্যবহৃত হয়। এটি একটি রৈখিক মডেলের (Linear Model) ফলাফলকে সিগময়েড ফাংশন (Sigmoid Function) ব্যবহার করে 0 থেকে 1 এর মধ্যে একটি সম্ভাবনার মানে রূপান্তরিত করে।

সহজভাবে বলতে গেলে, লজিস্টিক রিগ্রেশন আপনার ডেটা পয়েন্টগুলোকে নিয়ে একটি সরল রেখা বা প্লেন (যদি একাধিক ফিচার থাকে) তৈরি করার চেষ্টা করে, যা বিভিন্ন ক্লাসের ডেটাগুলোকে আলাদা করতে সাহায্য করে। এরপর, এই রেখা থেকে ডেটা পয়েন্টের দূরত্বকে সম্ভাবনায় রূপান্তরিত করা হয়।
 

সিগময়েড ফাংশন এবং সম্ভাবনার ব্যাখ্যা (Sigmoid Function and Probabilities)

লজিস্টিক রিগ্রেশনের মূল অংশ হলো সিগময়েড ফাংশন (Sigmoid Function), যা লজিস্টিক ফাংশন (Logistic Function) নামেও পরিচিত। এই ফাংশনটি যেকোনো বাস্তব সংখ্যা ইনপুট নেয় এবং আউটপুট হিসেবে 0 থেকে 1 এর মধ্যে একটি মান দেয়। এই মানটিকে একটি ঘটনা ঘটার সম্ভাবনা (probability) হিসেবে ব্যাখ্যা করা হয়।

সিগময়েড ফাংশনের সূত্রটি হলো: লজিস্টিক রিগ্রেশন (Logistic Regression) : হ্যাঁ অথবা না প্রশ্নের উত্তর খোঁজা | TechAid24
যেখানে:

  • হলো ইউলারের সংখ্যা (প্রায় 2.71828)
  • হলো ইনপুট, যা একটি রৈখিক সমীকরণ থেকে আসে:
    • হলো ইন্টারসেপ্ট (intercept)
    • হলো কোএফিসিয়েন্ট (coefficients) বা ওজন (weights)
    • হলো ইনপুট ফিচারগুলো (input features)

উদাহরণ: ধরা যাক, আমরা একজন গ্রাহক একটি পণ্য কিনবেন কিনা তা ভবিষ্যদ্বাণী করতে চাই। এখানে ইনপুট ফিচার হতে পারে গ্রাহকের বয়স, আয় ইত্যাদি। লজিস্টিক রিগ্রেশন মডেল প্রথমে এই ফিচারগুলো ব্যবহার করে একটি মান গণনা করবে।

  • যদি এর মান অনেক বড় হয় (যেমন, ), তাহলে

     এর মানে হলো গ্রাহক পণ্যটি কিনতে পারেন।

  • যদি এর মান শূন্য হয় (যেমন, ), তাহলে

  • যদি এর মান অনেক ছোট হয় (যেমন, ), তাহলে

     এর মানে হলো গ্রাহক পণ্যটি নাও কিনতে পারেন।

সাধারণত, আমরা একটি থ্রেশহোল্ড (threshold) সেট করি (যেমন, )। যদি সম্ভাবনার মান থ্রেশহোল্ডের উপরে হয়, তাহলে মডেলটি ‘হ্যাঁ’ (1) ভবিষ্যদ্বাণী করে; অন্যথায়, এটি ‘না’ (0) ভবিষ্যদ্বাণী করে।
 

লজিস্টিক রিগ্রেশন ব্যবহার করে বাইনারি ক্লাসিফিকেশন (Binary Classification with Logistic Regression)

লজিস্টিক রিগ্রেশন কিভাবে বাইনারি ক্লাসিফিকেশনের জন্য কাজ করে তার একটি উদাহরণ দেখা যাক। ধরা যাক, আমরা ছাত্রদের পরীক্ষার প্রস্তুতির সময় (ঘন্টায়) ব্যবহার করে তারা পরীক্ষায় পাশ করবে কিনা তা ভবিষ্যদ্বাণী করতে চাই। এখানে:

  • ইনপুট ফিচার (x): পরীক্ষার প্রস্তুতির সময় (ঘন্টা)
  • আউটপুট (y): পাশ (1) বা ফেল (0)

আমাদের মডেল প্রথমে

গণনা করবে। এরপর এই মানটিকে সিগময়েড ফাংশনে পাঠিয়ে পাশ করার সম্ভাবনা বের করবে।

উদাহরণ: যদি একটি মডেল ট্রেনিং করে আমরা পাই এবং : তাহলে

  • একজন ছাত্র 1 ঘন্টা প্রস্তুতি নিলে:

    যদি থ্রেশহোল্ড হয়, তাহলে মডেল ভবিষ্যদ্বাণী করবে ছাত্রটি ফেল করবে।

  • একজন ছাত্র 3 ঘন্টা প্রস্তুতি নিলে:

     যদি থ্রেশহোল্ড হয়, তাহলে মডেল ভবিষ্যদ্বাণী করবে ছাত্রটি পাশ করবে।

 

Python ব্যবহার করে লজিস্টিক রিগ্রেশন

চলুন, একটি সাধারণ উদাহরণ দিয়ে দেখি কিভাবে Python-এ scikit-learn লাইব্রেরি ব্যবহার করে লজিস্টিক রিগ্রেশন মডেল তৈরি এবং ব্যবহার করা যায়। আমরা কৃত্রিম ডেটা ব্যবহার করব।

কোডের ব্যাখ্যা:
  1. ডেটা তৈরি করা: আমরা numpy ব্যবহার করে কৃত্রিম ডেটা তৈরি করেছি। এখানে, passed_hours এবং failed_hours যথাক্রমে পাশ করা ও ফেল করা শিক্ষার্থীদের প্রস্তুতির সময় নির্দেশ করে। X হলো ফিচার (প্রস্তুতির সময়) এবং y হলো টার্গেট (পাশ/ফেল)।
  2. ডেটা ভাগ করা: train_test_split ব্যবহার করে ডেটাকে ট্রেনিং সেট এবং টেস্টিং সেটে ভাগ করা হয়েছে। মডেলকে ট্রেনিং ডেটার উপর শেখানো হয় এবং টেস্ট ডেটার উপর তার কর্মক্ষমতা মূল্যায়ন করা হয়।
  3. মডেল তৈরি ও প্রশিক্ষণ:
    • আমরা LogisticRegression() অবজেক্ট তৈরি করেছি।
    • model.fit(X_train, y_train) ব্যবহার করে মডেলকে ট্রেনিং ডেটার উপর প্রশিক্ষণ দেওয়া হয়েছে। এই প্রক্রিয়ায় মডেল সেরা coefficient এবং intercept মানগুলো খুঁজে বের করে।
  4. ভবিষ্যদ্বাণী করা:
    • model.predict(X_test) টেস্ট ডেটার জন্য 0 বা 1 (ফেল/পাশ) এর চূড়ান্ত ভবিষ্যদ্বাণী দেয়।
    • model.predict_proba(X_test)[:, 1] পাশ করার সম্ভাবনা (0 থেকে 1 এর মধ্যে) দেয়।
  5. মডেলের কর্মক্ষমতা মূল্যায়ন:
    • অ্যাকুরেসি: মডেল কত শতাংশ সঠিক ভবিষ্যদ্বাণী করেছে।
    • কনফিউশন ম্যাট্রিক্স: সঠিক এবং ভুল ভবিষ্যদ্বাণীর সংখ্যা দেখায়।
    • ক্লাসিফিকেশন রিপোর্ট: প্রিসিশন, রিকল, F1-স্কোর এবং সাপোর্ট (প্রতিটি ক্লাসের জন্য) সহ আরও বিস্তারিত মেট্রিক সরবরাহ করে।
  6. প্লটিং (Plotting):
    • আমরা scatter plot ব্যবহার করে ডেটা পয়েন্টগুলো দেখিয়েছি।
    • model.predict_proba(X_plot) ব্যবহার করে সিগময়েড কার্ভ প্লট করা হয়েছে, যা বিভিন্ন প্রস্তুতির সময়ের জন্য পাশ করার সম্ভাবনা দেখায়।
    • plt.axhline(y=0.5) থ্রেশহোল্ড লাইন দেখায়।
    • plt.axvline(x=decision_boundary) হলো ডিসিশন বাউন্ডারি, অর্থাৎ প্রস্তুতির যে সময়ে মডেলের পাশ করার সম্ভাবনা হয়। এই লাইনের বাম দিকে মডেল ফেল ভবিষ্যদ্বাণী করে এবং ডান দিকে পাশ ভবিষ্যদ্বাণী করে।

 

মডেল ট্রেনিং বা কীভাবে মডেল শেখে? (How the Model Learns?)

রিগ্রেশন মডেল যেমন লিনিয়ার রিগ্রেশন (Linear Regression), সেখানে মডেলের প্যারামিটার (coefficients বা ওজন) শেখার জন্য মিন স্কয়ার্ড এরর (Mean Squared Error – MSE) কমানো হয়। কিন্তু লজিস্টিক রিগ্রেশনের ক্ষেত্রে, আমরা MSE ব্যবহার করতে পারি না, কারণ সিগময়েড ফাংশনের আউটপুট নন-লিনিয়ার হওয়ায় MSE ল্যান্ডস্কেপ নন-কনভেক্স (non-convex) হয়, যেখানে গ্লোবাল মিনিমা (global minima) খুঁজে পাওয়া কঠিন।

লজিস্টিক রিগ্রেশন মডেল তার প্যারামিটারগুলো (অর্থাৎ ) শেখার জন্য লগ-লসহ (Log-Loss) বা ক্রস-এন্ট্রপি লসহ (Cross-Entropy Loss) ফাংশন ব্যবহার করে। এই লসহ ফাংশনটি আমাদের মডেলের ভবিষ্যদ্বাণী (predicted probability) এবং প্রকৃত লেবেলের (actual label) মধ্যে পার্থক্যকে পরিমাপ করে। মডেলের লক্ষ্য হলো এই লসহ ফাংশনের মান কমানো।

লগ-লসহ এর ধারণা: যখন মডেল একটি সঠিক ভবিষ্যদ্বাণী করে (যেমন, প্রকৃত মান 1 এবং ভবিষ্যদ্বাণী করা সম্ভাবনা 0.95), তখন লগ-লসহ এর মান কম হয়। কিন্তু যখন মডেল ভুল ভবিষ্যদ্বাণী করে (যেমন, প্রকৃত মান 1 কিন্তু ভবিষ্যদ্বাণী করা সম্ভাবনা 0.10), তখন লগ-লসহ এর মান অনেক বেশি হয়, যা মডেলকে তার ভুল থেকে শিখতে সাহায্য করে।

এই লসহ ফাংশন কমানোর জন্য গ্রেডিয়েন্ট ডিসেন্ট (Gradient Descent) এর মতো অপটিমাইজেশন অ্যালগরিদম ব্যবহার করা হয়। গ্রেডিয়েন্ট ডিসেন্ট মডেলের প্যারামিটারগুলোকে ধীরে ধীরে এমনভাবে পরিবর্তন করে যাতে লসহ ফাংশনের মান সর্বনিম্ন হয়।
 

মাল্টিনোমিয়াল লজিস্টিক রিগ্রেশন (Multinomial Logistic Regression)

লজিস্টিক রিগ্রেশন শুধুমাত্র বাইনারি (দুইটি ক্লাস) ক্লাসিফিকেশনের জন্য নয়, এটি মাল্টিক্লাস ক্লাসিফিকেশন (Multiclass Classification) সমস্যার জন্যও ব্যবহার করা যায়। যখন আপনার দুইটির বেশি আউটপুট ক্লাস থাকে (যেমন, একটি ছবি কি বিড়াল, কুকুর নাকি পাখি?), তখন আমরা মাল্টিনোমিয়াল লজিস্টিক রিগ্রেশন (বা সফটম্যাক্স রিগ্রেশন – Softmax Regression) ব্যবহার করি।
এখানে, সিগময়েড ফাংশনের পরিবর্তে সফটম্যাক্স ফাংশন (Softmax Function) ব্যবহার করা হয়, যা প্রতিটি ক্লাসের জন্য একটি করে সম্ভাবনা তৈরি করে এবং সকল সম্ভাবনার যোগফল হয়।
 

লজিস্টিক রিগ্রেশনের সুবিধা (Advantages of Logistic Regression)

  • সহজবোধ্য এবং ব্যাখ্যাযোগ্য: লজিস্টিক রিগ্রেশন মডেলের কোএফিসিয়েন্ট (coefficients)গুলো ব্যাখ্যা করা তুলনামূলকভাবে সহজ। একটি কোএফিসিয়েন্টের মান দেখে বোঝা যায় যে সংশ্লিষ্ট ফিচারের পরিবর্তন হলে ফলাফলের সম্ভাবনা কিভাবে প্রভাবিত হবে।
  • দক্ষ এবং দ্রুত: ছোট থেকে মাঝারি আকারের ডেটাসেটের জন্য এটি দ্রুত প্রশিক্ষণ দিতে এবং ভবিষ্যদ্বাণী করতে পারে।
  • আউটলায়ারদের প্রতি কম সংবেদনশীল: লিনিয়ার রিগ্রেশনের তুলনায় এটি আউটলায়ারদের প্রতি কম সংবেদনশীল।
  • ভালো বেজলাইন মডেল: এটি অনেক ক্লাসিফিকেশন সমস্যার জন্য একটি চমৎকার বেজলাইন মডেল হিসেবে কাজ করে। এর পারফরম্যান্স অন্যান্য জটিল মডেলের সাথে তুলনা করা যেতে পারে।
  • প্রভাবের সম্ভাবনা: এটি একটি ইভেন্ট ঘটার সম্ভাবনা আউটপুট দেয়, যা শুধুমাত্র একটি ক্লাস লেবেল দেওয়ার চেয়ে বেশি তথ্যপূর্ণ হতে পারে।

 

লজিস্টিক রিগ্রেশনের অসুবিধা (Disadvantages of Logistic Regression)

  • রৈখিক সম্পর্ক অনুমান (Assumes Linearity): লজিস্টিক রিগ্রেশন অনুমান করে যে ফিচারগুলো এবং লগ-অডস (log-odds) এর মধ্যে একটি রৈখিক সম্পর্ক রয়েছে। যদি সম্পর্কটি অ-রৈখিক হয়, তাহলে মডেলের পারফরম্যান্স খারাপ হতে পারে।
  • ফিচার ইঞ্জিনিয়ারিং এর প্রয়োজন: অ-রৈখিক সম্পর্কগুলো মডেল করার জন্য প্রায়শই ফিচার ইঞ্জিনিয়ারিং (যেমন, পলিনোমিয়াল ফিচার তৈরি) এর প্রয়োজন হয়।
  • ওভারফিটিং প্রবণতা (Prone to Overfitting): উচ্চ মাত্রার ডেটাসেট (high-dimensional datasets) বা যখন ফিচারের সংখ্যা ডেটা পয়েন্টের সংখ্যার চেয়ে বেশি হয়, তখন এটি ওভারফিটিং হতে পারে। রেগুলারাইজেশন (Regularization) এই সমস্যা কমাতে সাহায্য করে।
  • সীমাবদ্ধ প্রকাশ ক্ষমতা (Limited Expressive Power): কিছু জটিল সম্পর্ক মডেল করার জন্য এটি অন্যান্য অ্যালগরিদম (যেমন, নিউরাল নেটওয়ার্ক বা ট্রি-ভিত্তিক মডেল) এর মতো শক্তিশালী নয়।

 

কখন লজিস্টিক রিগ্রেশন ব্যবহার করবেন? (When to Use Logistic Regression?)

লজিস্টিক রিগ্রেশন ব্যবহারের কিছু সাধারণ ক্ষেত্র:

  • মেডিকেল ডায়াগনোসিস: একটি রোগের উপস্থিতি বা অনুপস্থিতি ভবিষ্যদ্বাণী করা।
  • ক্রেডিট স্কোরিং: একজন গ্রাহকের ঋণ পরিশোধের সম্ভাবনা ভবিষ্যদ্বাণী করা।
  • মার্কেটিং: একজন গ্রাহক একটি নির্দিষ্ট অফার গ্রহণ করবেন কিনা তা ভবিষ্যদ্বাণী করা।
  • স্প্যাম সনাক্তকরণ: একটি ইমেল স্প্যাম কিনা তা চিহ্নিত করা।
  • গুণমান নিয়ন্ত্রণ: একটি পণ্য ত্রুটিপূর্ণ কিনা তা নির্ধারণ করা।

 

Python উদাহরণ: মাল্টিক্লাস লজিস্টিক রিগ্রেশন

আগের উদাহরণটি ছিল বাইনারি ক্লাসিফিকেশন নিয়ে। চলুন, এখন একটি মাল্টিক্লাস ক্লাসিফিকেশন সমস্যায় লজিস্টিক রিগ্রেশন (সফটম্যাক্স রিগ্রেশন) কিভাবে কাজ করে, তা একটি পরিচিত ডেটাসেট – আইরিস ডেটাসেট (Iris Dataset) – ব্যবহার করে দেখি। এই ডেটাসেটে তিনটি ভিন্ন প্রজাতির আইরিস ফুল রয়েছে।

কোডের ব্যাখ্যা:
  1. আইরিস ডেটাসেট লোড করা: load_iris() ফাংশন ব্যবহার করে জনপ্রিয় আইরিস ডেটাসেট লোড করা হয়েছে। এতে চারটি ফিচার (সেপাল দৈর্ঘ্য, সেপাল প্রস্থ, পাপড়ি দৈর্ঘ্য, পাপড়ি প্রস্থ) এবং তিনটি ক্লাস (আইরিস সেটোসা, আইরিস ভার্সিকালার, আইরিস ভার্জিনিকা) রয়েছে।
  2. ডেটা ভাগ করা: train_test_split ব্যবহার করে ডেটা ট্রেনিং ও টেস্টিং সেটে ভাগ করা হয়েছে। stratify=y প্যারামিটারটি নিশ্চিত করে যে প্রতিটি ক্লাসের ডেটা ট্রেনিং ও টেস্টিং সেটে আনুপাতিক হারে বিভক্ত হয়েছে, যা মাল্টিক্লাস ক্লাসিফিকেশনের জন্য গুরুত্বপূর্ণ।
  3. মডেল তৈরি ও প্রশিক্ষণ:
    • LogisticRegression(multi_class='multinomial', solver='lbfgs', max_iter=200): এখানে multi_class='multinomial' ব্যবহার করা হয়েছে যা লজিস্টিক রিগ্রেশনকে মাল্টিক্লাস ক্লাসিফিকেশনের জন্য সফটম্যাক্স ফাংশন ব্যবহার করতে নির্দেশ করে। solver='lbfgs' একটি অপটিমাইজেশন অ্যালগরিদম যা ছোট ডেটাসেটের জন্য ভালো কাজ করে। max_iter হলো সর্বাধিক পুনরাবৃত্তির সংখ্যা।
    • model.fit(X_train, y_train) ব্যবহার করে মডেলকে প্রশিক্ষণ দেওয়া হয়েছে।
  4. ভবিষ্যদ্বাণী করা:
    • model.predict(X_test) টেস্ট ডেটার জন্য সরাসরি ভবিষ্যদ্বাণী করা ক্লাস লেবেল (0, 1, বা 2) দেয়।
    • model.predict_proba(X_test[:5]) প্রথম ৫টি টেস্ট স্যাম্পলের জন্য প্রতিটি ক্লাসের সদস্য হওয়ার সম্ভাবনা দেয়। উদাহরণস্বরূপ, [0.05, 0.90, 0.05] মানে দ্বিতীয় ক্লাসটি হওয়ার সম্ভাবনা
  5. মডেলের কর্মক্ষমতা মূল্যায়ন:
    • অ্যাকুরেসি: মডেলের সামগ্রিক নির্ভুলতা।
    • কনফিউশন ম্যাট্রিক্স: প্রতিটি প্রকৃত ক্লাস এবং ভবিষ্যদ্বাণী করা ক্লাসের মধ্যে সম্পর্ক দেখায়।
    • ক্লাসিফিকেশন রিপোর্ট: প্রতিটি ক্লাসের জন্য প্রিসিশন, রিকল এবং F1-স্কোর সহ বিস্তারিত মেট্রিক সরবরাহ করে।
  6. প্লটিং (ঐচ্ছিক):
    • আমরা ডেটাসেটের প্রথম দুটি ফিচার (সেপাল দৈর্ঘ্য এবং সেপাল প্রস্থ) ব্যবহার করে একটি ডিসিশন বাউন্ডারি প্লট করেছি। প্লটে বিভিন্ন রঙের অঞ্চলগুলো মডেলের শ্রেণীবিন্যাস করা অঞ্চল নির্দেশ করে, এবং ডেটা পয়েন্টগুলো প্রকৃত ক্লাস অনুসারে রঙ করা হয়েছে। এটি আমাদের মডেলের ভিজ্যুয়াল বুঝতে সাহায্য করে যে কিভাবে মডেল বিভিন্ন ক্লাসকে আলাদা করে।

 
 লজিস্টিক রিগ্রেশন বাইনারি ক্লাসিফিকেশন সমস্যার জন্য একটি শক্তিশালী এবং সহজে ব্যাখ্যাযোগ্য অ্যালগরিদম। এটি সিগময়েড ফাংশন ব্যবহার করে আউটপুটকে সম্ভাবনায় রূপান্তরিত করে, যা আমাদের একটি ঘটনা ঘটার সম্ভাবনা সম্পর্কে একটি সুস্পষ্ট ধারণা দেয়। এর সরলতা এবং কার্যকারিতার কারণে এটি অনেক শিল্পে ব্যাপকভাবে ব্যবহৃত হয়।
 

Leave a Comment