স্কিউনেস এবং কার্তোসিস (Skewness and Kurtosis) হলো দুটি পরিসংখ্যানিক পরিমাপ যা ডেটা ডিস্ট্রিবিউশনের আকৃতি বুঝতে আমাদের সাহায্য করে। এগুলি কেন্দ্রীয় প্রবণতা (গড়, মধ্যমা, প্রচুরক) এবং বিস্তারের (আদর্শ বিচ্যুতি) বাইরে অতিরিক্ত তথ্য দেয়।

Skewness ডেটার অপ্রতিসাম্যতা বোঝায়, আর Kurtosis আউটলায়ারের উপস্থিতি নির্দেশ করে। এই দুটি পরিমাপ মেশিন লার্নিং মডেলের কার্যকারিতা বোঝার জন্য জরুরি। এগুলোর সাহায্যে আমরা ডেটা রূপান্তর (transformation) করে এমন মডেল তৈরি করতে পারি যা আরও নির্ভুল এবং নির্ভরযোগ্য পূর্বাভাস দিতে সক্ষম। একজন ডেটা বিজ্ঞানী বা মেশিন লার্নিং প্রকৌশলীর জন্য এই ধারণাগুলো আয়ত্ত করা অপরিহার্য।
 

স্কিউনেস (Skewness)

স্কিউনেস একটি ডেটা ডিস্ট্রিবিউশনের অপ্রতিসাম্যতা পরিমাপ করে। একটি প্রতিসম ডিস্ট্রিবিউশন, যেমন স্বাভাবিক ডিস্ট্রিবিউশন বা (বেল কার্ভ), এর স্কিউনেস শূন্য হয়। এর মানে হলো, ডেটা পয়েন্টগুলো গড়ের উভয় পাশে সমানভাবে বিতরণ করা থাকে।

  • ধনাত্মক স্কিউনেস (Positive Skewness or Right-Skewed): ডিস্ট্রিবিউশনের ডান দিকের লেজ বাম দিকের লেজের চেয়ে লম্বা বা মোটা হয়। এটি নির্দেশ করে যে বেশিরভাগ ডেটা বাম দিকে কেন্দ্রীভূত, কিন্তু কিছু বড় মানের ডেটা থাকার কারণে গড় ডান দিকে সরে আসে। এই ক্ষেত্রে, গড় মধ্যমার চেয়ে বড়, যা প্রচুরকের চেয়ে বড় হয় (গড় > মধ্যমা > প্রচুরক)। একটি বাস্তব উদাহরণ হলো আয়ের বন্টন, যেখানে বেশিরভাগ মানুষের গড় আয় থাকে, কিন্তু কিছু ব্যক্তির আয় অনেক বেশি থাকে, যা গড়কে উপরের দিকে টেনে নিয়ে যায়।
  • ঋণাত্মক স্কিউনেস (Negative Skewness or Left-Skewed): ডিস্ট্রিবিউশনের বাম দিকের লেজ ডান দিকের লেজের চেয়ে লম্বা বা মোটা হয়। এটি নির্দেশ করে যে বেশিরভাগ ডেটা ডান দিকে কেন্দ্রীভূত, কিন্তু কিছু ছোট মানের ডেটা থাকার কারণে গড় বাম দিকে সরে আসে। এই ক্ষেত্রে, গড় মধ্যমার চেয়ে ছোট, যা প্রচুরকের চেয়ে ছোট হয় (গড় < মধ্যমা < প্রচুরক)। একটি খুব সহজ পরীক্ষার নম্বরের বন্টন এর উদাহরণ হতে পারে, যেখানে বেশিরভাগ শিক্ষার্থী উচ্চ নম্বর পায়, কিন্তু কিছু শিক্ষার্থী খুব কম নম্বর পায়।

 

কার্তোসিস (Kurtosis)

কার্তোসিস একটি ডিস্ট্রিবিউশনের “লেজ” বা আউটলায়ারের উপস্থিতি পরিমাপ করে। এটি আমাদের জানায় যে ডিস্ট্রিবিউশনের লেজগুলো স্বাভাবিক ডিস্ট্রিবিউশনের চেয়ে ভারী (বেশি চরম মান আছে) নাকি হালকা। এটি প্রায়শই “চূড়া” বা peak-এর সাথে বিভ্রান্ত হয়, কিন্তু এটি মূলত লেজের একটি পরিমাপ।

একটি স্বাভাবিক ডিস্ট্রিবিউশনের কার্তোসিস হলো ৩। অনেক পরিসংখ্যান সফটওয়্যার প্যাকেজে “এক্সেস কার্তোসিস” (excess kurtosis) রিপোর্ট করা হয়, যা থেকে ৩ বিয়োগ করা হয় যাতে একটি স্বাভাবিক ডিস্ট্রিবিউশনের এক্সেস কার্তোসিস শূন্য হয়।

  • লেপ্টোকার্টিক (Leptokurtic) বা ধনাত্মক কার্তোসিস: এই ডিস্ট্রিবিউশনের একটি সুচালো, উঁচু চূড়া এবং ভারী লেজ থাকে। এর মানে হলো স্বাভাবিক ডিস্ট্রিবিউশনের তুলনায় ডেটাতে বেশি আউটলায়ার বা চরম মান রয়েছে। একটি লেপ্টোকার্টিক ডিস্ট্রিবিউশনের “লেজ”-এ স্বাভাবিক ডিস্ট্রিবিউশনের চেয়ে বেশি ডেটা থাকে।
  • মেসোকার্টিক (Mesokurtic) বা শূন্য কার্তোসিস: এই ডিস্ট্রিবিউশনের চূড়া এবং লেজ স্বাভাবিক ডিস্ট্রিবিউশনের মতোই হয়। এর কার্তোসিস প্রায় ৩ (বা এক্সেস কার্তোসিসের জন্য ০)।
  • প্লেটিকার্টিক (Platykurtic) বা ঋণাত্মক কার্তোসিস: এই ডিস্ট্রিবিউশনের একটি চ্যাপ্টা চূড়া এবং হালকা লেজ থাকে। এটি নির্দেশ করে যে স্বাভাবিক ডিস্ট্রিবিউশনের তুলনায় ডেটাতে কম আউটলায়ার বা চরম মান রয়েছে। ডেটা আরও বেশি ছড়িয়ে থাকে এবং সুষম হয়।

 
স্কিউনেস এবং কার্তোসিস (Skewness and Kurtosis) বোঝা গুরুত্বপূর্ণ, কারণ এগুলি মেশিন লার্নিং মডেলের অনুমান এবং কার্যকারিতাকে প্রভাবিত করতে পারে। খুব বেশি স্কিউড বা কার্তোটিক ডেটার জন্য সঠিক ভবিষ্যদ্বাণী অর্জনের জন্য বিশেষ প্রিপ্রসেসিং কৌশল বা বিভিন্ন ধরনের অ্যালগরিদমের প্রয়োজন হতে পারে।

এই কোডটি চালালে, আপনি নিচের আউটপুটটি পাবেন:

 
স্বাভাবিক বন্টনের (normal distribution) জন্য প্রাপ্ত স্কিউনেস এবং কার্তোসিস-এর মান শূন্যের কাছাকাছি হওয়া উচিত। ডেটা বিশ্লেষণে শুধু গড় বা আদর্শ বিচ্যুতিই যথেষ্ট নয়। স্কিউনেস এবং কার্তোসিস (Skewness and Kurtosis) ডেটার আকৃতি সম্পর্কে আরও গভীর ধারণা দেয়।

Skewness and Kurtosis

Leave a Comment