আগের আলোচনায় আমরা ডেটার কেন্দ্রীয় মান (Mean, Median, Mode) খুঁজে বের করা শিখেছি। কিন্তু ডেটার সম্পূর্ণ চিত্র বোঝার জন্য শুধু কেন্দ্রীয় মান জানাই যথেষ্ট নয়। আমাদের জানতে হবে ডেটাগুলো সেই কেন্দ্রীয় মানের চারপাশে কীভাবে ছড়িয়ে বা বিস্তৃত হয়ে আছে। এই বিস্তার পরিমাপ করার পদ্ধতিগুলোকেই বলা হয় Measures of Dispersion বা Measures of Spread।

সহজ একটি উদাহরণ দিই। ধরুন, দুটি ক্লাসের ছাত্রদের পরীক্ষার গড় নম্বর ৬০। প্রথম ক্লাসে সবাই ৫৫ থেকে ৬৫ এর মধ্যে নম্বর পেয়েছে। দ্বিতীয় ক্লাসে কিছু ছাত্র ৯০ পেয়েছে, আবার কিছু ছাত্র ৩০ পেয়েছে। যদিও দুটি ক্লাসের গড় একই, তাদের নম্বরের বিস্তার বা ছড়িয়ে থাকার ধরণ সম্পূর্ণ আলাদা। এই পার্থক্যটাই আমরা Measures of Dispersion দিয়ে পরিমাপ করি। চলুন, সবচেয়ে প্রচলিত ৫টি পদ্ধতি সম্পর্কে জেনে নেওয়া যাক।

 

পরিসর (Range)

পরিসর (Range) হলো ডেটাসেটের সর্বোচ্চ এবং সর্বনিম্ন মানের মধ্যে পার্থক্য (অর্থাৎ, সবচেয়ে বড় সংখ্যাটি থেকে সবচেয়ে ছোট সংখ্যাটি বাদ দেওয়া)। রেঞ্জ নির্ণয় করার জন্য:

  • প্রথমে ডেটাসেট থেকে সবচেয়ে বড় এবং সবচেয়ে ছোট সংখ্যাটি নির্ধারণ করুন।
  • তারপর বড় সংখ্যাটি থেকে ছোট সংখ্যাটি বিয়োগ করুন।

পরিসর (Range) গাণিতিকভাবে নির্ণয় করতে, আপনাকে কেবল ডেটাসেটের ছোট থেকে বড় ক্রমে সাজানো মান নির্ধারণ করতে হবে এবং তারপর বিয়োগ করে পার্থক্যটি বের করতে হবে (উদাহরণস্বরূপ, শুরুতেই সংখ্যাগুলিকে আরোহী ক্রমে সাজালে পরিসর গণনা করা খুব সহজ হয়ে যায়)। এই উদাহরণে, ডেটাসেটের সবচেয়ে বড় সংখ্যা হলো ৮ এবং সবচেয়ে ছোট সংখ্যা হলো ১।
তাই রেঞ্জ = ৮ − ১ = ৭।

 

আন্তঃচতুর্থক পরিসর (Interquartile Range (IQR))

আউটলায়ারের সমস্যা দূর করার জন্য IQR একটি চমৎকার পদ্ধতি। ডেটাকে ছোট থেকে বড় ক্রমে সাজানোর পর এর মাঝের ৫০% ডেটার বিস্তারকে IQR বলে। এটি তৃতীয় কোয়ার্টাইল (Q3 বা 75th percentile) এবং প্রথম কোয়ার্টাইল (Q1 বা 25th percentile)-এর মধ্যেকার পার্থক্য। সুবিধা হলো, যেহেতু এটি ডেটাসেটের প্রথম ২৫% এবং শেষ ২৫% মানকে বাদ দিয়ে হিসাব করা হয়, তাই এটি আউটলায়ার দ্বারা প্রভাবিত হয় না। বক্সপ্লট (Boxplot) তৈরিতে এটি ব্যবহৃত হয়।

 

ভেদাঙ্ক (Variance)

Variance হলো গড় থেকে প্রতিটি মানের দূরত্বের বর্গের (squared difference) গড়। এটি দেখায় যে ডেটাসেটের প্রতিটি মান তার গড় (Mean) থেকে কতটা দূরে অবস্থিত। অসুবিধা হলো, এর এককটি মূল ডেটার এককের বর্গ হয় (যেমন: রান স্কয়ার, টাকা স্কয়ার), যা বোঝা কঠিন।

 

পরিমিত ব্যবধান (Standard Deviation)

এটি ভেদাঙ্কের (Variance) অসুবিধা দূর করে এবং বিস্তার পরিমাপের জন্য সবচেয়ে বেশি ব্যবহৃত পদ্ধতি। সুবিধা হলো, এর একক মূল ডেটার এককের সমান হয় (যেমন: রান, টাকা), যা বোঝা এবং ব্যাখ্যা করা অনেক সহজ। Standard Deviation যত কম, ডেটা তত বেশি ধারাবাহিক (consistent) বা গড়ের কাছাকাছি থাকে।

 

বিভেদাঙ্ক (Coefficient of Variation (CV))

CV একটি আপেক্ষিক (relative) বিস্তার পরিমাপক। এটি হলো Standard Deviation এবং Mean-এর অনুপাত, যা সাধারণত শতাংশে প্রকাশ করা হয়। যখন দুটি ভিন্ন ডেটাসেটের বিস্তার তুলনা করতে হয়, যাদের একক বা গড় ভিন্ন। যেমন: ক্রিকেটারদের রানের বিস্তারের সাথে বোলারদের উইকেটের বিস্তারের তুলনা করা, অথবা হাতির ওজন (কেজি) এবং ইঁদুরের ওজনের (গ্রাম) বিস্তারের তুলনা করা। যার CV কম, সে তত বেশি স্থিতিশীল (stable) বা ধারাবাহিক।

 

ডেটা অ্যানালাইসিসে কেন্দ্রীয় মানের পাশাপাশি ডেটার বিস্তার জানা অত্যন্ত জরুরি। এটি আমাদের ডেটার গঠন, ধারাবাহিকতা এবং নির্ভরযোগ্যতা সম্পর্কে গভীর ধারণা দেয়। আশা করি, এই আলোচনা আপনাকে ডেটার বিস্তার পরিমাপের পদ্ধতিগুলো সহজে বুঝতে সাহায্য করেছে।

Leave a Comment