গড় (Mean), মধ্যমা (Median), প্রচুরক (Mode) এবং পরিসর (Range) হলো ডেটাসেটের কেন্দ্রীয় প্রবণতা (central tendency) বর্ণনা করতে ব্যবহৃত মৌলিক পরিসংখ্যানগত সরঞ্জাম বা উপাদান—অর্থাৎ, যেখানে বেশিরভাগ মান কেন্দ্রীভূত থাকে। এআই ইঞ্জিনিয়ারিংয়ে, এই পরিমাপগুলি ডেটা কীভাবে ছড়িয়ে আছে তা বুঝতে সাহায্য করে এবং আউটলায়ার (অস্বাভাবিক মান যা প্যাটার্নের সাথে মেলে না) সনাক্ত করতেও সহায়তা করতে পারে।

নিম্নলিখিত বিভাগগুলিতে, আমরা প্রতিটি পরিমাপের অর্থ এবং পাইথন ব্যবহার করে কীভাবে এটি গণনা করতে হয় তা অন্বেষণ করব।

গড় (Mean)

গড় (Mean) হলো একগুচ্ছ সংখ্যার গড় মান। এটি বের করতে, আপনাকে ডেটাসেটের সমস্ত মান একসাথে যোগ করতে হবে এবং তারপর মোট যোগফলকে মোট মানের সংখ্যা দিয়ে ভাগ করতে হবে। গড় আমাদেরকে ডেটার সংখ্যাগুলির সাধারণ আকার সম্পর্কে একটি দ্রুত ধারণা দেয়। তবে, এটি খুব উচ্চ বা খুব কম মান (যাদের আউটলায়ার বা ব্যতিক্রমধর্মী মান বলা হয়) দ্বারা প্রভাবিত হতে পারে, যা গড়কে বেশিরভাগ ডেটা যেখানে থাকে সেখান থেকে দূরে সরিয়ে দিতে পারে।

মধ্যমা (Median)
মধ্যমা (Median) হলো একটি ডেটাসেটের মধ্যম মান। এটি বের করার জন্য, আপনাকে প্রথমে সমস্ত সংখ্যাকে ছোট থেকে বড় ক্রমে সাজাতে হবে। 
  • যদি ডেটাসেটের মোট সংখ্যা বিজোড় হয়, তাহলে মাঝখানের সংখ্যাটিই হবে মধ্যমা।
  • আর যদি সংখ্যাটি জোড় হয়, তাহলে মাঝের দুটি সংখ্যার গড় বের করতে হবে – যা মধ্যমা।
মধ্যমা আমাদের ডেটায় থাকা সংখ্যাগুলোর সাধারণ মান সম্পর্কে দ্রুত ধারণা দেয়, যা ডেটার কেন্দ্র বোঝার জন্য একটি সহায়ক উপায়। বিশেষ করে যখন ডেটাসেটে আউটলায়ার (খুব বড় বা খুব ছোট মান) থাকে। গড়ের এর বিপরীতে, মধ্যমা আউটলায়ার দ্বারা প্রভাবিত হয় না, যা এটিকে নির্দিষ্ট ক্ষেত্রে একটি নির্ভরযোগ্য পরিমাপ করে তোলে। পাইথনে, আপনি NumPy লাইব্রেরির median() ফাংশন ব্যবহার করে সহজেই মধ্যমা গণনা করতে পারেন।
প্রচুরক (Mode)

প্রচুরক (Mode) হলো সেই মান যা কোনো একটি ডেটাসেটে সবচেয়ে বেশি সংখ্যকবার দেখা যায়। এটি খুঁজে বের করার জন্য, আপনাকে কেবল সেই সংখ্যাটি দেখতে হবে যা সবচেয়ে বেশিবার ঘটেছে।

  • যদি দুটি মান সমান সংখ্যকবার দেখা যায়, তাহলে সেটিকে বাইমোডাল (bimodal) বলে।
  • যদি তিনটি মান সমানভাবে পুনরাবৃত্তি হয়, সেটিকে ট্রাইমোডাল (trimodal) বলে।
  • তিনটির বেশি মান সমান সংখ্যায় পুনরাবৃত্তি হলে সেটিকে মাল্টিমোডাল (multimodal) বলে।

প্রচুরক (Mode) আমাদেরকে বুঝতে সাহায্য করে কোন মানটি সবচেয়ে সাধারণ বা বেশি দেখা যায়, যা কিছু পরিস্থিতিতে উপযোগী হতে পারে। তবে, যদি ডেটাতে কোনও পুনরাবৃত্ত মান না থাকে বা মানগুলি খুব বেশি ছড়িয়ে থাকে তবে এটি খুব সহায়ক নাও হতে পারে। পাইথনে, আমরা SciPy লাইব্রেরি ব্যবহার করে মোড গণনা করতে পারি, যেখানে mode() নামক একটি ফাংশন রয়েছে।

পরিসর (Range)

পরিসর (Range) হলো ডেটাসেটের সর্বোচ্চ এবং সর্বনিম্ন মানের মধ্যে পার্থক্য (অর্থাৎ, সবচেয়ে বড় সংখ্যাটি থেকে সবচেয়ে ছোট সংখ্যাটি বাদ দেওয়া)। রেঞ্জ নির্ণয় করার জন্য:

  • প্রথমে ডেটাসেট থেকে সবচেয়ে বড় এবং সবচেয়ে ছোট সংখ্যাটি নির্ধারণ করুন।
  • তারপর বড় সংখ্যাটি থেকে ছোট সংখ্যাটি বিয়োগ করুন।

পরিসর (Range) গাণিতিকভাবে নির্ণয় করতে, আপনাকে কেবল ডেটাসেটের ছোট থেকে বড় ক্রমে সাজানো মান নির্ধারণ করতে হবে এবং তারপর বিয়োগ করে পার্থক্যটি বের করতে হবে (উদাহরণস্বরূপ, শুরুতেই সংখ্যাগুলিকে আরোহী ক্রমে সাজালে পরিসর গণনা করা খুব সহজ হয়ে যায়)। এই উদাহরণে, ডেটাসেটের সবচেয়ে বড় সংখ্যা হলো ৮ এবং সবচেয়ে ছোট সংখ্যা হলো ১।
তাই রেঞ্জ = ৮ − ১ = ৭।

 

Leave a Comment