এলবো মেথড (Elbow Method) : K-Means-এ সঠিক ক্লাস্টার সংখ্যা নির্ধারণের সহজ উপায়

In this article, we'll take a look at Show

মেশিন লার্নিং-এ, বিশেষ করে ক্লাস্টারিং (Clustering) অ্যালগরিদম যেমন K-Means ব্যবহার করার সময়, একটি গুরুত্বপূর্ণ চ্যালেঞ্জ হলো সেরা ক্লাস্টারের সংখ্যা (K) নির্ধারণ করা। যখন আমরা ডেটাকে বিভিন্ন গ্রুপে ভাগ করতে চাই, তখন কয়টি গ্রুপে ভাগ করলে ডেটা সবচেয়ে ভালোভাবে সংগঠিত হবে, তা বোঝা কঠিন হতে পারে।

এলবো মেথড (Elbow Method) হলো এমন একটি কৌশল যা এই সমস্যা সমাধানে সাহায্য করে। এটি এমন একটি গ্রাফিক্যাল পদ্ধতি যা আমাদের ডেটার জন্য উপযুক্ত ক্লাস্টারের সংখ্যা (K-এর মান) খুঁজে বের করতে সাহায্য করে।

এলবো মেথড (Elbow Method) কী?

এলবো মেথড (Elbow Method) হলো একটি হিউরিস্টিক (heuristic) পদ্ধতি যা K-Means ক্লাস্টারিং-এর মতো অ্যালগরিদমগুলির জন্য ক্লাস্টারের সর্বোত্তম সংখ্যা (Optimal K) নির্ধারণ করতে ব্যবহৃত হয়। এই পদ্ধতিতে, আমরা বিভিন্ন K মানের জন্য ক্লাস্টারিং করি এবং প্রতিটি K মানের জন্য একটি নির্দিষ্ট মেট্রিক গণনা করি।

সবচেয়ে প্রচলিত মেট্রিক হলো Within-Cluster Sum of Squares (WCSS), যা প্রতিটি ক্লাস্টারের মধ্যে ডেটা পয়েন্ট এবং তার সেন্ট্রয়েডের (গড় বিন্দু) দূরত্বের বর্গের সমষ্টি। WCSS-এর ধারণাটি হলো:

কম WCSS মানে হলো ডেটা পয়েন্টগুলো তাদের নিজ নিজ ক্লাস্টারের সেন্ট্রয়েডের খুব কাছাকাছি আছে, অর্থাৎ ক্লাস্টারগুলো সুসংগঠিত।
বেশি WCSS মানে হলো ডেটা পয়েন্টগুলো তাদের সেন্ট্রয়েড থেকে দূরে আছে, অর্থাৎ ক্লাস্টারগুলো ভালোভাবে গঠিত হয়নি।

এলবো মেথডে আমরা K-এর বিভিন্ন মানের জন্য (যেমন K=1 থেকে K=10 বা আরও বেশি) K-Means অ্যালগরিদম চালাই এবং প্রতিটি K-এর জন্য WCSS গণনা করি। এরপর আমরা K-এর মান বনাম WCSS-এর একটি গ্রাফ প্লট করি।

এলবো মেথডের (Elbow Method) উদাহরণ

ধরা যাক আমাদের কাছে কিছু পণ্যের বিক্রির ডেটা আছে এবং আমরা এই পণ্যগুলোকে তাদের বৈশিষ্ট্য (যেমন মূল্য, ওজন, ইত্যাদি) অনুসারে বিভিন্ন গ্রুপে ভাগ করতে চাই। আমরা জানি না কয়টি গ্রুপে ভাগ করলে ভালো হবে। আমরা এলবো মেথড ব্যবহার করে এটি করতে পারি:

বিভিন্ন K-এর জন্য K-Means চালানো:
- K=1 এর জন্য K-Means চালাই এবং WCSS গণনা করি।
- K=2 এর জন্য K-Means চালাই এবং WCSS গণনা করি।
- …
- K=10 এর জন্য K-Means চালাই এবং WCSS গণনা করি।
WCSS মান রেকর্ড করা: মনে করুন, আমাদের WCSS মানগুলো এরকম আসলো:
- K=1: WCSS = 500
- K=2: WCSS = 200
- K=3: WCSS = 80
- K=4: WCSS = 60
- K=5: WCSS = 55
- K=6: WCSS = 52
- K=7: WCSS = 50

গ্রাফ প্লট করা: আমরা একটি গ্রাফ আঁকবো যেখানে X-অক্ষ বরাবর K-এর মান এবং Y-অক্ষ বরাবর WCSS-এর মান থাকবে।


WCSS
^
|
|  500 *
|
|  200     *
|
|   80             *
|   60                 *
|   55                     *
|   52                         *
|   50                             *
+-------------------------------------> K
  1   2   3   4   5   6   7

WCSS

| 500 *

| 200 *

| 80 *

| 60 *

| 55 *

| 52 *

| 50 *

+-------------------------------------> K

1 2 3 4 5 6 7

Python ব্যবহার করে এলবো মেথড (Elbow Method)

এলবো মেথড ব্যবহার করে সর্বোত্তম K (Optimal K) খুঁজে বের করার জন্য আমরা Python ব্যবহার করে একটি উদাহরণ দেখবো। এখানে আমরা scikit-learn লাইব্রেরি থেকে KMeans এবং matplotlib লাইব্রেরি থেকে গ্রাফ তৈরি করার জন্য pyplot ব্যবহার করব।

প্রথমে আমাদের প্রয়োজনীয় লাইব্রেরিগুলো ইম্পোর্ট করতে হবে:


import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs # ডেমো ডেটা তৈরির জন্য

import matplotlib.pyplot as plt

from sklearn.cluster import KMeans

from sklearn.datasets import make_blobs # ডেমো ডেটা তৈরির জন্য

এবার আমরা কিছু ডেমো ডেটা তৈরি করবো। আসল ডেটা না থাকলে make_blobs ফাংশন ব্যবহার করে ক্লাস্টারিং এর জন্য উপযুক্ত ডেটা তৈরি করা যায়।


# ডেমো ডেটা তৈরি
# n_samples: মোট ডেটা পয়েন্টের সংখ্যা
# n_features: প্রতিটি ডেটা পয়েন্টের বৈশিষ্ট্য সংখ্যা
# centers: প্রকৃত ক্লাস্টারের সংখ্যা (আমরা এটি এলবো মেথড দিয়ে খুঁজে বের করার চেষ্টা করব)
# cluster_std: ক্লাস্টারের বিস্তৃতি (কম মান মানে ক্লাস্টারগুলো আরও টাইট)
X, y = make_blobs(n_samples=300, n_features=2, centers=4, cluster_std=0.60, random_state=0)

# ডেটার প্রথম 5টি সারি দেখুন
print("ডেমো ডেটার প্রথম 5টি সারি:\n", X[:5])
print("\nডেটার আকার:", X.shape)

# ডেমো ডেটা তৈরি

# n_samples: মোট ডেটা পয়েন্টের সংখ্যা

# n_features: প্রতিটি ডেটা পয়েন্টের বৈশিষ্ট্য সংখ্যা

# centers: প্রকৃত ক্লাস্টারের সংখ্যা (আমরা এটি এলবো মেথড দিয়ে খুঁজে বের করার চেষ্টা করব)

# cluster_std: ক্লাস্টারের বিস্তৃতি (কম মান মানে ক্লাস্টারগুলো আরও টাইট)

X, y = make_blobs(n_samples=300, n_features=2, centers=4, cluster_std=0.60, random_state=0)

# ডেটার প্রথম 5টি সারি দেখুন

print("ডেমো ডেটার প্রথম 5টি সারি:\n", X[:5])

print("\nডেটার আকার:", X.shape)

এরপর আমরা এলবো মেথড প্রয়োগ করব। এর জন্য আমরা K-এর বিভিন্ন মানের জন্য (যেমন 1 থেকে 10 পর্যন্ত) KMeans অ্যালগরিদম চালাবো এবং প্রতিটি ক্ষেত্রে WCSS (Within-Cluster Sum of Squares) বা inertia_ মান সংগ্রহ করব।


wcss = [] # WCSS (inertia) মান সংরক্ষণের জন্য একটি খালি তালিকা

# K-এর বিভিন্ন মান (1 থেকে 10) এর জন্য K-Means প্রয়োগ
for i in range(1, 11):
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10, random_state=0)
    kmeans.fit(X)
    wcss.append(kmeans.inertia_) # inertia_ অ্যাট্রিবিউট WCSS মান দেয়

wcss = [] # WCSS (inertia) মান সংরক্ষণের জন্য একটি খালি তালিকা

# K-এর বিভিন্ন মান (1 থেকে 10) এর জন্য K-Means প্রয়োগ

for i in range(1, 11):

kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init=10, random_state=0)

kmeans.fit(X)

wcss.append(kmeans.inertia_) # inertia_ অ্যাট্রিবিউট WCSS মান দেয়

এবার আমরা WCSS মানগুলো ব্যবহার করে একটি গ্রাফ তৈরি করব:


# গ্রাফ প্লট করা
plt.figure(figsize=(10, 6))
plt.plot(range(1, 11), wcss, marker='o', linestyle='--')
plt.title('এলবো মেথড')
plt.xlabel('ক্লাস্টারের সংখ্যা (K)')
plt.ylabel('WCSS')
plt.xticks(range(1, 11))
plt.grid(True)
plt.show()

# গ্রাফ প্লট করা

plt.figure(figsize=(10, 6))

plt.plot(range(1, 11), wcss, marker='o', linestyle='--')

plt.title('এলবো মেথড')

plt.xlabel('ক্লাস্টারের সংখ্যা (K)')

plt.ylabel('WCSS')

plt.xticks(range(1, 11))

plt.grid(True)

plt.show()

গ্রাফের ব্যাখ্যা (Interpreting the Graph)

উপরের কোডটি চালানোর পর আপনি একটি গ্রাফ দেখতে পাবেন। এই গ্রাফের X-অক্ষ বরাবর ক্লাস্টারের সংখ্যা (K) এবং Y-অক্ষ বরাবর WCSS মান থাকবে। আপনি লক্ষ্য করবেন যে, K-এর মান বাড়ার সাথে সাথে WCSS-এর মান কমতে থাকে। এর কারণ হলো, যত বেশি ক্লাস্টার থাকবে, প্রতিটি ক্লাস্টার তত ছোট হবে এবং ডেটা পয়েন্টগুলো তাদের সেন্ট্রয়েডের (গড় বিন্দু) আরও কাছাকাছি থাকবে, ফলে দূরত্ব কম হবে।
গ্রাফে, যেখানে WCSS-এর পতনের হারে একটি সুস্পষ্ট “বাঁক” বা “কনুই” (Elbow) দেখা যায়, সেই বিন্দুটিই আমাদের সর্বোত্তম K হিসাবে চিহ্নিত করা হয়। আমাদের তৈরি করা ডেমো ডেটার জন্য, আপনি সম্ভবত K=4-এ একটি স্পষ্ট কনুই দেখতে পাবেন। এর অর্থ হলো, এই ডেটাসেটের জন্য 4টি ক্লাস্টার সবচেয়ে উপযুক্ত। 4-এর পর K-এর মান বাড়ালেও WCSS-এর মান খুব বেশি কমবে না, যা নির্দেশ করে যে অতিরিক্ত ক্লাস্টার যোগ করলে ডেটা সংগঠনের ক্ষেত্রে খুব বেশি উন্নতি হবে না।

এলবো মেথড (Elbow Method) ইন্টারপ্রেট করা

উপরের গ্রাফটি লক্ষ্য করুন। WCSS-এর মান K-এর মান বাড়ার সাথে সাথে কমতে থাকে। এর কারণ হলো, যখন ক্লাস্টারের সংখ্যা বাড়ে, তখন প্রতিটি ক্লাস্টার আরও ছোট এবং ঘন হয়, ফলে ডেটা পয়েন্টগুলো তাদের সেন্ট্রয়েডের আরও কাছাকাছি চলে আসে।

কিন্তু, আপনি লক্ষ্য করবেন যে WCSS-এর পতনের হার প্রথম দিকে খুব দ্রুত হয় এবং তারপর ধীরে ধীরে কমে যায়। গ্রাফে যেখানে এই পতনের হারে একটি সুস্পষ্ট বাঁক বা “কনুই” (Elbow) তৈরি হয়, সেই বিন্দুটিকেই আমরা সর্বোত্তম K হিসাবে চিহ্নিত করি।

আমাদের উদাহরণে, K=3 বিন্দুতে একটি স্পষ্ট বাঁক দেখা যাচ্ছে। K=1 থেকে K=2 এবং K=2 থেকে K=3-তে WCSS-এর মান উল্লেখযোগ্যভাবে কমেছে (500 থেকে 200, তারপর 200 থেকে 80)। কিন্তু K=3 থেকে K=4-তে (80 থেকে 60), K=4 থেকে K=5-তে (60 থেকে 55) ইত্যাদি ক্ষেত্রে WCSS-এর পতন খুব বেশি নয়। এর মানে হলো, K=3-এর পর নতুন ক্লাস্টার যোগ করলে ডেটা সংগঠনের ক্ষেত্রে খুব বেশি উন্নতি হচ্ছে না। তাই, আমাদের ডেটার জন্য সেরা ক্লাস্টারের সংখ্যা K=3 হতে পারে।

এলবো মেথড (Elbow Method) একই ডেটা পয়েন্টগুলিকে গ্রুপ করে

এলবো মেথড সরাসরি ডেটা পয়েন্টগুলিকে গ্রুপ করে না, বরং এটি K-Means অ্যালগরিদমকে সাহায্য করে। K-Means অ্যালগরিদমই আসলে ডেটা পয়েন্টগুলিকে গ্রুপ করে।
K-Means কিভাবে ডেটা গ্রুপ করে:

এটি এলোমেলোভাবে K সংখ্যক সেন্ট্রয়েড নির্বাচন করে।
প্রতিটি ডেটা পয়েন্টকে তার নিকটতম সেন্ট্রয়েডের সাথে অ্যাসাইন করে, এভাবে K সংখ্যক ক্লাস্টার তৈরি হয়।
প্রতিটি ক্লাস্টারের জন্য নতুন সেন্ট্রয়েড (ক্লাস্টারের ডেটা পয়েন্টগুলির গড় অবস্থান) গণনা করে।
এই প্রক্রিয়াটি পুনরাবৃত্তি করে যতক্ষণ না সেন্ট্রয়েডগুলি আর উল্লেখযোগ্যভাবে স্থান পরিবর্তন করে না বা একটি নির্দিষ্ট সংখ্যক ইটারেশন সম্পন্ন হয়।

এলবো মেথড এই K-Means প্রক্রিয়ার জন্য “K” এর একটি ভালো মান খুঁজে বের করতে সাহায্য করে, যাতে K-Means কার্যকরভাবে একই ধরনের ডেটা পয়েন্টগুলিকে একসাথে গ্রুপ করতে পারে। K-এর সঠিক মান নির্বাচন করলে, একই ধরনের ডেটা পয়েন্টগুলো একই ক্লাস্টারে থাকবে এবং ভিন্ন ধরনের ডেটা পয়েন্টগুলো ভিন্ন ক্লাস্টারে থাকবে।

এলবো মেথডের গুরুত্ব (Importance of Elbow Method)

এলবো মেথডের গুরুত্ব নিম্নরূপ:

সঠিক ক্লাস্টার সংখ্যা নির্ধারণ: এটি ক্লাস্টারিং অ্যালগরিদমগুলির জন্য K-এর সর্বোত্তম মান নির্ধারণে সাহায্য করে, যা ডেটা বিশ্লেষণের ফলাফলের গুণমানকে প্রভাবিত করে।
অর্থপূর্ণ ক্লাস্টার তৈরি: সঠিক K-এর মান নির্বাচন করলে গঠিত ক্লাস্টারগুলো ডেটা সেট সম্পর্কে অর্থপূর্ণ অন্তর্দৃষ্টি প্রদান করে। উদাহরণস্বরূপ, গ্রাহকদের আচরণ বিশ্লেষণ করার সময়, গ্রাহকদেরকে 3টি ভিন্ন সেগমেন্টে ভাগ করা 10টি এলোমেলো সেগমেন্টে ভাগ করার চেয়ে বেশি অর্থপূর্ণ হতে পারে।
কম্পিউটেশনাল দক্ষতা: ভুল K-এর মান, বিশেষ করে খুব বড় K-এর মান নির্বাচন করলে, অ্যালগরিদম চলতে অনেক বেশি সময় নিতে পারে এবং অকার্যকর হতে পারে। এলবো মেথড আমাদের একটি ভারসাম্যপূর্ণ K খুঁজে পেতে সাহায্য করে।
কম্পিউটেশনাল দক্ষতা: ভুল K-এর মান, বিশেষ করে খুব বড় K-এর মান নির্বাচন করলে, অ্যালগরিদম চলতে অনেক বেশি সময় নিতে পারে এবং অকার্যকর হতে পারে। এলবো মেথড আমাদের একটি ভারসাম্যপূর্ণ K খুঁজে পেতে সাহায্য করে।
হিউম্যান ইন্টারপ্রিটেশন: এটি ডেটা অ্যানালিস্টকে ডেটার অন্তর্নিহিত কাঠামো বুঝতে এবং সেই অনুযায়ী সিদ্ধান্ত নিতে সাহায্য করে।

এলবো মেথড ব্যবহার করে সর্বোত্তম K খুঁজে বের করা

এলবো মেথড ব্যবহার করে সর্বোত্তম K খুঁজে বের করার ধাপগুলো আবার সংক্ষেপে দেখে নিই:

K-এর একটি রেঞ্জ নির্বাচন করুন: সাধারণত K=1 থেকে শুরু করে একটি নির্দিষ্ট সংখ্যা (যেমন 10 বা 15) পর্যন্ত K-এর মান বিবেচনা করা হয়।
প্রতিটি K-এর জন্য K-Means প্রয়োগ করুন: নির্বাচিত K-এর প্রতিটি মানের জন্য ডেটা সেটে K-Means ক্লাস্টারিং অ্যালগরিদম প্রয়োগ করুন।
WCSS গণনা করুন: প্রতিটি K-এর জন্য WCSS (Within-Cluster Sum of Squares) গণনা করুন। এটি K-Means মডেলের একটি বিল্ট-ইন মেট্রিক হিসাবে পাওয়া যায় (যেমন Scikit-learn-এ inertia_ অ্যাট্রিবিউট)।
গ্রাফ প্লট করুন: K-এর মান (X-অক্ষ) বনাম WCSS-এর মান (Y-অক্ষ) নিয়ে একটি লাইন প্লট তৈরি করুন।
“এলবো” বিন্দু সনাক্ত করুন: গ্রাফে WCSS-এর পতনের হারে যেখানে একটি সুস্পষ্ট “বাঁক” বা “কনুই” দেখা যায়, সেই বিন্দুটিই হলো সর্বোত্তম K-এর মান। এই বিন্দুটি নির্দেশ করে যে এই K-এর পর ক্লাস্টার সংখ্যা বাড়ালে WCSS-এর মান খুব বেশি কমছে না, অর্থাৎ নতুন ক্লাস্টার যোগ করার সুবিধা কমে গেছে।