স্কিউনেস এবং কার্তোসিস (Skewness and Kurtosis) হলো দুটি পরিসংখ্যানিক পরিমাপ যা ডেটা ডিস্ট্রিবিউশনের আকৃতি বুঝতে আমাদের সাহায্য করে। এগুলি কেন্দ্রীয় প্রবণতা (গড়, মধ্যমা, প্রচুরক) এবং বিস্তারের (আদর্শ বিচ্যুতি) বাইরে অতিরিক্ত তথ্য দেয়।
Skewness ডেটার অপ্রতিসাম্যতা বোঝায়, আর Kurtosis আউটলায়ারের উপস্থিতি নির্দেশ করে। এই দুটি পরিমাপ মেশিন লার্নিং মডেলের কার্যকারিতা বোঝার জন্য জরুরি। এগুলোর সাহায্যে আমরা ডেটা রূপান্তর (transformation) করে এমন মডেল তৈরি করতে পারি যা আরও নির্ভুল এবং নির্ভরযোগ্য পূর্বাভাস দিতে সক্ষম। একজন ডেটা বিজ্ঞানী বা মেশিন লার্নিং প্রকৌশলীর জন্য এই ধারণাগুলো আয়ত্ত করা অপরিহার্য।
স্কিউনেস (Skewness)
স্কিউনেস একটি ডেটা ডিস্ট্রিবিউশনের অপ্রতিসাম্যতা পরিমাপ করে। একটি প্রতিসম ডিস্ট্রিবিউশন, যেমন স্বাভাবিক ডিস্ট্রিবিউশন বা (বেল কার্ভ), এর স্কিউনেস শূন্য হয়। এর মানে হলো, ডেটা পয়েন্টগুলো গড়ের উভয় পাশে সমানভাবে বিতরণ করা থাকে।
- ধনাত্মক স্কিউনেস (Positive Skewness or Right-Skewed): ডিস্ট্রিবিউশনের ডান দিকের লেজ বাম দিকের লেজের চেয়ে লম্বা বা মোটা হয়। এটি নির্দেশ করে যে বেশিরভাগ ডেটা বাম দিকে কেন্দ্রীভূত, কিন্তু কিছু বড় মানের ডেটা থাকার কারণে গড় ডান দিকে সরে আসে। এই ক্ষেত্রে, গড় মধ্যমার চেয়ে বড়, যা প্রচুরকের চেয়ে বড় হয় (গড় > মধ্যমা > প্রচুরক)। একটি বাস্তব উদাহরণ হলো আয়ের বন্টন, যেখানে বেশিরভাগ মানুষের গড় আয় থাকে, কিন্তু কিছু ব্যক্তির আয় অনেক বেশি থাকে, যা গড়কে উপরের দিকে টেনে নিয়ে যায়।
- ঋণাত্মক স্কিউনেস (Negative Skewness or Left-Skewed): ডিস্ট্রিবিউশনের বাম দিকের লেজ ডান দিকের লেজের চেয়ে লম্বা বা মোটা হয়। এটি নির্দেশ করে যে বেশিরভাগ ডেটা ডান দিকে কেন্দ্রীভূত, কিন্তু কিছু ছোট মানের ডেটা থাকার কারণে গড় বাম দিকে সরে আসে। এই ক্ষেত্রে, গড় মধ্যমার চেয়ে ছোট, যা প্রচুরকের চেয়ে ছোট হয় (গড় < মধ্যমা < প্রচুরক)। একটি খুব সহজ পরীক্ষার নম্বরের বন্টন এর উদাহরণ হতে পারে, যেখানে বেশিরভাগ শিক্ষার্থী উচ্চ নম্বর পায়, কিন্তু কিছু শিক্ষার্থী খুব কম নম্বর পায়।
কার্তোসিস (Kurtosis)
কার্তোসিস একটি ডিস্ট্রিবিউশনের “লেজ” বা আউটলায়ারের উপস্থিতি পরিমাপ করে। এটি আমাদের জানায় যে ডিস্ট্রিবিউশনের লেজগুলো স্বাভাবিক ডিস্ট্রিবিউশনের চেয়ে ভারী (বেশি চরম মান আছে) নাকি হালকা। এটি প্রায়শই “চূড়া” বা peak-এর সাথে বিভ্রান্ত হয়, কিন্তু এটি মূলত লেজের একটি পরিমাপ।
একটি স্বাভাবিক ডিস্ট্রিবিউশনের কার্তোসিস হলো ৩। অনেক পরিসংখ্যান সফটওয়্যার প্যাকেজে “এক্সেস কার্তোসিস” (excess kurtosis) রিপোর্ট করা হয়, যা থেকে ৩ বিয়োগ করা হয় যাতে একটি স্বাভাবিক ডিস্ট্রিবিউশনের এক্সেস কার্তোসিস শূন্য হয়।
- লেপ্টোকার্টিক (Leptokurtic) বা ধনাত্মক কার্তোসিস: এই ডিস্ট্রিবিউশনের একটি সুচালো, উঁচু চূড়া এবং ভারী লেজ থাকে। এর মানে হলো স্বাভাবিক ডিস্ট্রিবিউশনের তুলনায় ডেটাতে বেশি আউটলায়ার বা চরম মান রয়েছে। একটি লেপ্টোকার্টিক ডিস্ট্রিবিউশনের “লেজ”-এ স্বাভাবিক ডিস্ট্রিবিউশনের চেয়ে বেশি ডেটা থাকে।
- মেসোকার্টিক (Mesokurtic) বা শূন্য কার্তোসিস: এই ডিস্ট্রিবিউশনের চূড়া এবং লেজ স্বাভাবিক ডিস্ট্রিবিউশনের মতোই হয়। এর কার্তোসিস প্রায় ৩ (বা এক্সেস কার্তোসিসের জন্য ০)।
- প্লেটিকার্টিক (Platykurtic) বা ঋণাত্মক কার্তোসিস: এই ডিস্ট্রিবিউশনের একটি চ্যাপ্টা চূড়া এবং হালকা লেজ থাকে। এটি নির্দেশ করে যে স্বাভাবিক ডিস্ট্রিবিউশনের তুলনায় ডেটাতে কম আউটলায়ার বা চরম মান রয়েছে। ডেটা আরও বেশি ছড়িয়ে থাকে এবং সুষম হয়।
স্কিউনেস এবং কার্তোসিস (Skewness and Kurtosis) বোঝা গুরুত্বপূর্ণ, কারণ এগুলি মেশিন লার্নিং মডেলের অনুমান এবং কার্যকারিতাকে প্রভাবিত করতে পারে। খুব বেশি স্কিউড বা কার্তোটিক ডেটার জন্য সঠিক ভবিষ্যদ্বাণী অর্জনের জন্য বিশেষ প্রিপ্রসেসিং কৌশল বা বিভিন্ন ধরনের অ্যালগরিদমের প্রয়োজন হতে পারে।
1 2 3 4 5 6 7 8 9 10 11 12 13 |
import numpy as np from scipy.stats import skew, kurtosis # Generate a random dataset data = np.random.normal(0, 1, 1000) # Calculate the skewness and kurtosis of the dataset skewness = skew(data) kurtosis = kurtosis(data) # Print the results print('Skewness:', skewness) print('Kurtosis:', kurtosis) |
এই কোডটি চালালে, আপনি নিচের আউটপুটটি পাবেন:
1 2 |
Skewness: -0.04119418903611285 Kurtosis: -0.1152250196054534 |
স্বাভাবিক বন্টনের (normal distribution) জন্য প্রাপ্ত স্কিউনেস এবং কার্তোসিস-এর মান শূন্যের কাছাকাছি হওয়া উচিত। ডেটা বিশ্লেষণে শুধু গড় বা আদর্শ বিচ্যুতিই যথেষ্ট নয়। স্কিউনেস এবং কার্তোসিস (Skewness and Kurtosis) ডেটার আকৃতি সম্পর্কে আরও গভীর ধারণা দেয়।
Leave a Comment