মডেল ইভালুয়েশন (Model Evaluation) : আপনার মেশিন লার্নিং মডেল কতটা ভালো কাজ করে?

In this article, we'll take a look at Show

মেশিন লার্নিং (Machine Learning) মডেল তৈরি করা খুবই মজার। আপনি ডেটা সংগ্রহ করেন, মডেলকে প্রশিক্ষণ দেন এবং তারপর সেটিকে কাজ করতে দেখেন। কিন্তু আপনি কীভাবে বুঝবেন যে আপনার মডেলটি সত্যিই ভালো কাজ করছে?

এখানেই মডেল ইভালুয়েশনের (Model Evaluation) গুরুত্ব। সহজ কথায়, মডেল ইভালুয়েশন (Model Evaluation) হলো আপনার তৈরি করা মেশিন লার্নিং মডেলটির পারফরম্যান্স (performance) পরিমাপ করার প্রক্রিয়া। এটি আপনাকে বুঝতে সাহায্য করে যে আপনার মডেল বাস্তব ডেটার উপর কতটা নির্ভুল এবং কার্যকর।

মডেল ইভালুয়েশন (Model Evaluation) কেন প্রয়োজন?

মডেল ইভালুয়েশন (Model Evaluation) ছাড়া, আপনার মডেলের কার্যকারিতা সম্পর্কে আপনার কোনো স্পষ্ট ধারণা থাকবে না। কল্পনা করুন, আপনি একটি নতুন ওষুধ তৈরি করেছেন, কিন্তু পরীক্ষা না করেই বলছেন এটি কাজ করবে। এটা যেমন যুক্তিযুক্ত নয়, তেমনি মডেল ইভালুয়েশন ছাড়া একটি মডেলকে নির্ভরযোগ্য বলাও ঠিক নয়।

মডেল ইভালুয়েশনের কিছু প্রধান কারণ নিচে দেওয়া হলো:

নির্ভুলতা যাচাই (Accuracy Verification): এটি আপনাকে জানতে সাহায্য করে যে আপনার মডেল ভবিষ্যদ্বাণী (predictions) করতে কতটা সঠিক।
তুলনা (Comparison): যখন আপনার কাছে একাধিক মডেল থাকে, তখন ইভালুয়েশন আপনাকে সেরা মডেলটি বেছে নিতে সাহায্য করে।
ত্রুটি শনাক্তকরণ (Error Identification): ইভালুয়েশন প্রক্রিয়ার মাধ্যমে আপনি আপনার মডেলের দুর্বলতা বা ত্রুটিগুলো খুঁজে বের করতে পারেন এবং সেগুলো উন্নত করতে পারেন।
বাস্তব-বিশ্বে প্রয়োগ (Real-world Application): একটি ভালোভাবে ইভালুয়েটেড মডেল বাস্তব-বিশ্বের সমস্যা সমাধানে আরও কার্যকর হয়।

মডেল ইভালুয়েশনের প্রকারভেদ (Types of Model Evaluation)

মডেল ইভালুয়েশনের বিভিন্ন উপায় রয়েছে, যা আপনার মডেলের প্রকার এবং আপনি কী পরিমাপ করতে চান তার উপর নির্ভর করে। এখানে কিছু সাধারণ প্রকারভেদ আলোচনা করা হলো:

১. ক্লাসিফিকেশন মডেল ইভালুয়েশন (Classification Model Evaluation)

ক্লাসিফিকেশন মডেলগুলি ডেটাকে বিভিন্ন শ্রেণীতে বিভক্ত করতে ব্যবহৃত হয় (যেমন: ইমেল স্প্যাম না হ্যাম, ছবি বিড়াল না কুকুর)। এই মডেলগুলোর জন্য কিছু গুরুত্বপূর্ণ ইভালুয়েশন মেট্রিক্স (metrics) হলো:

অ্যাকুরেসি (Accuracy): এটি সঠিক ভবিষ্যদ্বাণীর অনুপাত। অর্থাৎ, মডেল মোট কতগুলো ভবিষ্যদ্বাণীর মধ্যে কতগুলো সঠিক করেছে তার শতাংশ।
- উদাহরণ: যদি একটি মডেল ১০০টি ইমেলের মধ্যে ৯০টিকে সঠিকভাবে স্প্যাম বা হ্যাম হিসেবে চিহ্নিত করে, তাহলে তার অ্যাকুরেসি ৯০%।
প্রিসিশন (Precision): যখন মডেল কোনো একটি ক্লাসকে (যেমন, স্প্যাম) ‘হ্যাঁ’ বলে ভবিষ্যদ্বাণী করে, তখন সেটি আসলে কতটা সঠিক।
- উদাহরণ: একটি মডেল ১০টি ইমেলকে স্প্যাম হিসেবে চিহ্নিত করেছে, যার মধ্যে ৮টি সত্যিই স্প্যাম ছিল। এখানে প্রিসিশন হবে $8/10 = 80%$ ।
রিকল (Recall): কোনো একটি নির্দিষ্ট ক্লাসের (যেমন, সব স্প্যাম ইমেল) যতগুলো উদাহরণ আছে, তার মধ্যে মডেল কতগুলো সঠিকভাবে চিহ্নিত করতে পেরেছে।
- উদাহরণ: আপনার কাছে মোট ১০টি স্প্যাম ইমেল ছিল, এবং আপনার মডেল তার মধ্যে ৮টি স্প্যাম ইমেলকে সঠিকভাবে চিহ্নিত করেছে। এখানে রিকল হবে $8/10 = 80%$ ।
F1-স্কোর (F1-Score): এটি প্রিসিশন এবং রিকলের একটি ভারসাম্যপূর্ণ মেট্রিক, যা দুটি মেট্রিকের হারমোনিক গড়। এটি বিশেষ করে তখন দরকারি যখন ডেটাসেটে ক্লাসগুলোর মধ্যে ভারসাম্যহীনতা থাকে।
কনফিউশন ম্যাট্রিক্স (Confusion Matrix): এটি একটি টেবিল যা ক্লাসিফিকেশন মডেলের পারফরম্যান্সের একটি সম্পূর্ণ চিত্র দেয়, যেখানে সঠিক এবং ভুল ভবিষ্যদ্বাণীর সংখ্যা দেখানো হয়।

২. রিগ্রেশন মডেল ইভালুয়েশন (Regression Model Evaluation)

রিগ্রেশন মডেলগুলি সংখ্যাসূচক মান ভবিষ্যদ্বাণী করতে ব্যবহৃত হয় (যেমন: বাড়ির দাম, তাপমাত্রা)। এই মডেলগুলোর জন্য কিছু গুরুত্বপূর্ণ ইভালুয়েশন মেট্রিক্স হলো:

মিন অ্যাবসলিউট এরর (Mean Absolute Error – MAE): এটি ভবিষ্যদ্বাণী করা মান এবং প্রকৃত মানের মধ্যে পার্থক্যের গড় পরম মান। এটি আমাদের বলে যে মডেলের ভবিষ্যদ্বাণীগুলি গড়ে কতটা ভুল।
- উদাহরণ: যদি একটি মডেল একটি বাড়ির দাম ১০০০০ টাকা কম বা বেশি ভবিষ্যদ্বাণী করে, তাহলে MAE হবে ১০০০০ টাকা।
মিন স্কোয়ার্ড এরর (Mean Squared Error – MSE): এটি ভবিষ্যদ্বাণী করা মান এবং প্রকৃত মানের মধ্যে পার্থক্যের বর্গগুলির গড়। MSE বড় ত্রুটিগুলিকে বেশি গুরুত্ব দেয়।
রুট মিন স্কোয়ার্ড এরর (Root Mean Squared Error – RMSE): এটি MSE-এর বর্গমূল। RMSE MAE-এর চেয়ে বড় ত্রুটিগুলিকে আরও বেশি শাস্তি দেয় এবং এটি একই ইউনিটে প্রকাশ করা হয় যা ভবিষ্যদ্বাণী করা হচ্ছে, তাই এটি ব্যাখ্যা করা সহজ।
R-স্কোয়ার্ড (R-squared বা $R^{2}$ ): এটি ব্যাখ্যা করে যে মডেলটি আউটপুট ভ্যারিয়েন্সের কতটা ব্যাখ্যা করতে সক্ষম। এর মান ০ থেকে ১ এর মধ্যে থাকে, যেখানে ১ মানে মডেলটি ডেটা পুরোপুরি ব্যাখ্যা করতে পারে।

Python ব্যবহার করে ক্লাসিফিকেশন মডেল ইভালুয়েশন

আমরা একটি ক্লাসিফিকেশন মডেলের জন্য অ্যাকুরেসি (Accuracy), প্রিসিশন (Precision), রিকল (Recall) এবং F1-স্কোর (F1-Score) কিভাবে গণনা করা যায় তার একটি সহজ উদাহরণ দেখাবো।
ধরা যাক, আমরা একটি মডেল তৈরি করেছি যা ইমেলকে ‘স্প্যাম’ (1) অথবা ‘হ্যাম’ (0) হিসেবে শ্রেণীবদ্ধ করে। আমরা কিছু প্রকৃত মান (actual values) এবং আমাদের মডেলের ভবিষ্যদ্বাণী করা মান (predicted values) এর একটি সেট নিচ্ছি:


# প্রকৃত (সত্য) মান
actual_labels = [1, 0, 1, 1, 0, 0, 1, 0, 1, 0]
# মডেলের ভবিষ্যদ্বাণী করা মান
predicted_labels = [1, 1, 1, 0, 0, 1, 1, 0, 0, 0]

# এখানে:
# 1 মানে স্প্যাম (Positve class)
# 0 মানে হ্যাম (Negative class)

# প্রকৃত (সত্য) মান

actual_labels = [1, 0, 1, 1, 0, 0, 1, 0, 1, 0]

# মডেলের ভবিষ্যদ্বাণী করা মান

predicted_labels = [1, 1, 1, 0, 0, 1, 1, 0, 0, 0]

# এখানে:

# 1 মানে স্প্যাম (Positve class)

# 0 মানে হ্যাম (Negative class)

এখন, আমরা এই মানগুলো ব্যবহার করে বিভিন্ন মেট্রিক্স গণনা করব। আমরা scikit-learn লাইব্রেরি ব্যবহার করব, যা মেশিন লার্নিং এর জন্য খুবই জনপ্রিয়।


from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import numpy as np

# প্রকৃত (সত্য) মান
actual_labels = np.array([1, 0, 1, 1, 0, 0, 1, 0, 1, 0])
# মডেলের ভবিষ্যদ্বাণী করা মান
predicted_labels = np.array([1, 1, 1, 0, 0, 1, 1, 0, 0, 0])

print("প্রকৃত লেবেল (Actual Labels):", actual_labels)
print("ভবিষ্যদ্বাণী করা লেবেল (Predicted Labels):", predicted_labels)

print("\n--- মডেল ইভালুয়েশন মেট্রিক্স ---")

# অ্যাকুরেসি (Accuracy)
accuracy = accuracy_score(actual_labels, predicted_labels)
print(f"অ্যাকুরেসি (Accuracy): {accuracy:.2f}")

# প্রিসিশন (Precision) - এখানে আমরা পজিটিভ ক্লাস '1' (স্প্যাম) এর জন্য প্রিসিশন গণনা করছি
precision = precision_score(actual_labels, predicted_labels, pos_label=1)
print(f"প্রিসিশন (Precision) (For Spam - 1): {precision:.2f}")

# রিকল (Recall) - এখানে আমরা পজিটিভ ক্লাস '1' (স্প্যাম) এর জন্য রিকল গণনা করছি
recall = recall_score(actual_labels, predicted_labels, pos_label=1)
print(f"রিকল (Recall) (For Spam - 1): {recall:.2f}")

# F1-স্কোর (F1-Score) - পজিটিভ ক্লাস '1' এর জন্য
f1 = f1_score(actual_labels, predicted_labels, pos_label=1)
print(f"F1-স্কোর (F1-Score) (For Spam - 1): {f1:.2f}")

# কনফিউশন ম্যাট্রিক্স (Confusion Matrix)
conf_matrix = confusion_matrix(actual_labels, predicted_labels)
print("\nকনফিউশন ম্যাট্রিক্স (Confusion Matrix):")
print(conf_matrix)

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

import numpy as np

# প্রকৃত (সত্য) মান

actual_labels = np.array([1, 0, 1, 1, 0, 0, 1, 0, 1, 0])

# মডেলের ভবিষ্যদ্বাণী করা মান

predicted_labels = np.array([1, 1, 1, 0, 0, 1, 1, 0, 0, 0])

print("প্রকৃত লেবেল (Actual Labels):", actual_labels)

print("ভবিষ্যদ্বাণী করা লেবেল (Predicted Labels):", predicted_labels)

print("\n--- মডেল ইভালুয়েশন মেট্রিক্স ---")

# অ্যাকুরেসি (Accuracy)

accuracy = accuracy_score(actual_labels, predicted_labels)

print(f"অ্যাকুরেসি (Accuracy): {accuracy:.2f}")

# প্রিসিশন (Precision) - এখানে আমরা পজিটিভ ক্লাস '1' (স্প্যাম) এর জন্য প্রিসিশন গণনা করছি

precision = precision_score(actual_labels, predicted_labels, pos_label=1)

print(f"প্রিসিশন (Precision) (For Spam - 1): {precision:.2f}")

# রিকল (Recall) - এখানে আমরা পজিটিভ ক্লাস '1' (স্প্যাম) এর জন্য রিকল গণনা করছি

recall = recall_score(actual_labels, predicted_labels, pos_label=1)

print(f"রিকল (Recall) (For Spam - 1): {recall:.2f}")

# F1-স্কোর (F1-Score) - পজিটিভ ক্লাস '1' এর জন্য

f1 = f1_score(actual_labels, predicted_labels, pos_label=1)

print(f"F1-স্কোর (F1-Score) (For Spam - 1): {f1:.2f}")

# কনফিউশন ম্যাট্রিক্স (Confusion Matrix)

conf_matrix = confusion_matrix(actual_labels, predicted_labels)

print("\nকনফিউশন ম্যাট্রিক্স (Confusion Matrix):")

print(conf_matrix)

কোডটির ব্যাখ্যা:

actual_labels এবং predicted_labels: এই দুটি অ্যারে আমাদের ডেটাসেটের প্রকৃত এবং ভবিষ্যদ্বাণী করা লেবেলগুলো ধারণ করে।
accuracy_score:
- এটি মোট ভবিষ্যদ্বাণীর মধ্যে কতগুলো সঠিক হয়েছে তা গণনা করে।
- আমাদের উদাহরণে: (1,1), (0,0), (1,1), (0,0), (1,1) এই ৫টি ভবিষ্যদ্বাণী সঠিক। মোট ভবিষ্যদ্বাণী ১০টি। তাই অ্যাকুরেসি $5/10 = 0.50$ ।
precision_score:
- যখন মডেল ‘স্প্যাম’ (1) বলে ভবিষ্যদ্বাণী করেছে, তখন সেগুলো আসলে কতটুকু সঠিক ছিল।
- মডেল ‘স্প্যাম’ (1) হিসেবে ভবিষ্যদ্বাণী করেছে: [1, 1, 1, 1, 1] (প্রথম, দ্বিতীয়, তৃতীয়, ষষ্ঠ, সপ্তম আইটেম) – মোট ৫টি।
- এর মধ্যে যেগুলি সত্যিই স্প্যাম ছিল: প্রথমটি (actual=1, pred=1), তৃতীয়টি (actual=1, pred=1), সপ্তমটি (actual=1, pred=1)। – মোট ৩টি।
- সুতরাং, প্রিসিশন: $3/5 = 0.60$ ।
recall_score:
- যতগুলো স্প্যাম ইমেল (প্রকৃত 1) ছিল, তার মধ্যে মডেল কতগুলো সঠিকভাবে চিহ্নিত করতে পেরেছে।
- প্রকৃত স্প্যাম ইমেল ছিল: [1, 1, 1, 1, 1] (প্রথম, তৃতীয়, চতুর্থ, সপ্তম, নবম আইটেম) – মোট ৫টি।
- মডেল এর মধ্যে সঠিকভাবে চিহ্নিত করেছে: প্রথমটি (actual=1, pred=1), তৃতীয়টি (actual=1, pred=1), সপ্তমটি (actual=1, pred=1)। – মোট ৩টি।
- সুতরাং, রিকল: $3/5 = 0.60$ ।
f1_score:
- এটি প্রিসিশন এবং রিকলের হারমোনিক গড়। $F1 = 2 \* (Precision \* Recall) / (Precision + Recall)$
- আমাদের ক্ষেত্রে: $F1 = 2 \* (0.60 \* 0.60) / (0.60 + 0.60) = 2 \* 0.36 / 1.20 = 0.72 / 1.20 = 0.60$।
confusion_matrix:
- এটি একটি ম্যাট্রিক্স যা আমাদের মডেলের পারফরম্যান্সের একটি বিস্তারিত চিত্র দেয়।
- আউটপুট হবে অনেকটা এরকম:
  
  [[2 2] [2 4]]
  
  1
  2
  3
  4
  5
  
  [[2 2]
  [2 4]]
  
  এটি ব্যাখ্যা করা যেতে পারে এভাবে:
  - True Negative (TN): মডেল 0 ভবিষ্যদ্বাণী করেছে এবং প্রকৃতও 0 ছিল (হ্যামকে সঠিকভাবে হ্যাম বলেছে) – 2টি।
  - False Positive (FP): মডেল 1 ভবিষ্যদ্বাণী করেছে কিন্তু প্রকৃত 0 ছিল (হ্যামকে ভুল করে স্প্যাম বলেছে) – 2টি।
  - False Negative (FN): মডেল 0 ভবিষ্যদ্বাণী করেছে কিন্তু প্রকৃত 1 ছিল (স্প্যামকে ভুল করে হ্যাম বলেছে) – 2টি।
  - True Positive (TP): মডেল 1 ভবিষ্যদ্বাণী করেছে এবং প্রকৃতও 1 ছিল (স্প্যামকে সঠিকভাবে স্প্যাম বলেছে) – 4টি।

এই কোড এবং ব্যাখ্যা আপনাকে মডেল ইভালুয়েশন মেট্রিক্সগুলো কীভাবে গণনা করা হয় এবং তাদের অর্থ কী, সে সম্পর্কে একটি ব্যবহারিক ধারণা দিতে সাহায্য করবে।

মডেল ইভালুয়েশন মেশিন লার্নিং পাইপলাইনের একটি অবিচ্ছেদ্য অংশ। সঠিক ইভালুয়েশন মেট্রিকস ব্যবহার করে আপনি আপনার মডেলের কার্যকারিতা সম্পর্কে গভীর ধারণা লাভ করতে পারেন এবং এটিকে আরও উন্নত করতে পারেন। মনে রাখবেন, একটি ভালো মডেল শুধুমাত্র নির্ভুল ভবিষ্যদ্বাণীই করে না, এটি বাস্তব-বিশ্বের পরিস্থিতিতে নির্ভরযোগ্যভাবে কাজ করে।