মীন (Mean), মিডিয়ান (Median), মোড (Mode) এবং পরিসর (Range) কীভাবে বের করবেন : উদাহরণসহ একটি সম্পূর্ণ নির্দেশিকা

In this article, we'll take a look at Show

গড় (Mean), মধ্যমা (Median), প্রচুরক (Mode) এবং পরিসর (Range) হলো ডেটাসেটের কেন্দ্রীয় প্রবণতা (central tendency) বর্ণনা করতে ব্যবহৃত মৌলিক পরিসংখ্যানগত সরঞ্জাম বা উপাদান—অর্থাৎ, যেখানে বেশিরভাগ মান কেন্দ্রীভূত থাকে। এআই ইঞ্জিনিয়ারিংয়ে, এই পরিমাপগুলি ডেটা কীভাবে ছড়িয়ে আছে তা বুঝতে সাহায্য করে এবং আউটলায়ার (অস্বাভাবিক মান যা প্যাটার্নের সাথে মেলে না) সনাক্ত করতেও সহায়তা করতে পারে।

নিম্নলিখিত বিভাগগুলিতে, আমরা প্রতিটি পরিমাপের অর্থ এবং পাইথন ব্যবহার করে কীভাবে এটি গণনা করতে হয় তা অন্বেষণ করব।

গড় (Mean)

গড় (Mean) হলো একগুচ্ছ সংখ্যার গড় মান। এটি বের করতে, আপনাকে ডেটাসেটের সমস্ত মান একসাথে যোগ করতে হবে এবং তারপর মোট যোগফলকে মোট মানের সংখ্যা দিয়ে ভাগ করতে হবে। গড় আমাদেরকে ডেটার সংখ্যাগুলির সাধারণ আকার সম্পর্কে একটি দ্রুত ধারণা দেয়। তবে, এটি খুব উচ্চ বা খুব কম মান (যাদের আউটলায়ার বা ব্যতিক্রমধর্মী মান বলা হয়) দ্বারা প্রভাবিত হতে পারে, যা গড়কে বেশিরভাগ ডেটা যেখানে থাকে সেখান থেকে দূরে সরিয়ে দিতে পারে।

import numpy as np
import pandas as pd

# create a sample salary table
salary = pd.DataFrame({
   'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'],
   'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000]
})

# calculate mean
mean_salary = np.mean(salary['salary'])
print('Mean salary:', mean_salary)

import numpy as np

import pandas as pd

# create a sample salary table

salary = pd.DataFrame({

'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'],

'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000]

})

# calculate mean

mean_salary = np.mean(salary['salary'])

print('Mean salary:', mean_salary)

মধ্যমা (Median)

মধ্যমা (Median) হলো একটি ডেটাসেটের মধ্যম মান। এটি বের করার জন্য, আপনাকে প্রথমে সমস্ত সংখ্যাকে ছোট থেকে বড় ক্রমে সাজাতে হবে।

যদি ডেটাসেটের মোট সংখ্যা বিজোড় হয়, তাহলে মাঝখানের সংখ্যাটিই হবে মধ্যমা।
আর যদি সংখ্যাটি জোড় হয়, তাহলে মাঝের দুটি সংখ্যার গড় বের করতে হবে – যা মধ্যমা।

মধ্যমা আমাদের ডেটায় থাকা সংখ্যাগুলোর সাধারণ মান সম্পর্কে দ্রুত ধারণা দেয়, যা ডেটার কেন্দ্র বোঝার জন্য একটি সহায়ক উপায়। বিশেষ করে যখন ডেটাসেটে আউটলায়ার (খুব বড় বা খুব ছোট মান) থাকে। গড়ের এর বিপরীতে, মধ্যমা আউটলায়ার দ্বারা প্রভাবিত হয় না, যা এটিকে নির্দিষ্ট ক্ষেত্রে একটি নির্ভরযোগ্য পরিমাপ করে তোলে। পাইথনে, আপনি NumPy লাইব্রেরির median() ফাংশন ব্যবহার করে সহজেই মধ্যমা গণনা করতে পারেন।

import numpy as np
import pandas as pd

# create a sample salary table
salary = pd.DataFrame({
   'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'],
   'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000]
})

# calculate median
median_salary = np.median(salary['salary'])
print('Median salary:', median_salary)

import numpy as np

import pandas as pd

# create a sample salary table

salary = pd.DataFrame({

'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'],

'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000]

})

# calculate median

median_salary = np.median(salary['salary'])

print('Median salary:', median_salary)

প্রচুরক (Mode)

প্রচুরক (Mode) হলো সেই মান যা কোনো একটি ডেটাসেটে সবচেয়ে বেশি সংখ্যকবার দেখা যায়। এটি খুঁজে বের করার জন্য, আপনাকে কেবল সেই সংখ্যাটি দেখতে হবে যা সবচেয়ে বেশিবার ঘটেছে।

যদি দুটি মান সমান সংখ্যকবার দেখা যায়, তাহলে সেটিকে বাইমোডাল (bimodal) বলে।
যদি তিনটি মান সমানভাবে পুনরাবৃত্তি হয়, সেটিকে ট্রাইমোডাল (trimodal) বলে।
তিনটির বেশি মান সমান সংখ্যায় পুনরাবৃত্তি হলে সেটিকে মাল্টিমোডাল (multimodal) বলে।

প্রচুরক (Mode) আমাদেরকে বুঝতে সাহায্য করে কোন মানটি সবচেয়ে সাধারণ বা বেশি দেখা যায়, যা কিছু পরিস্থিতিতে উপযোগী হতে পারে। তবে, যদি ডেটাতে কোনও পুনরাবৃত্ত মান না থাকে বা মানগুলি খুব বেশি ছড়িয়ে থাকে তবে এটি খুব সহায়ক নাও হতে পারে। পাইথনে, আমরা SciPy লাইব্রেরি ব্যবহার করে মোড গণনা করতে পারি, যেখানে mode() নামক একটি ফাংশন রয়েছে।

import numpy as np
import pandas as pd

# create a sample salary table
salary = pd.DataFrame({
   'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'],
   'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000]
})

# calculate mode
mode_salary = salary['salary'].mode()
print('Mode salary:', mode_salary.tolist())

import numpy as np

import pandas as pd

# create a sample salary table

salary = pd.DataFrame({

'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'],

'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000]

})

# calculate mode

mode_salary = salary['salary'].mode()

print('Mode salary:', mode_salary.tolist())

পরিসর (Range)

পরিসর (Range) হলো ডেটাসেটের সর্বোচ্চ এবং সর্বনিম্ন মানের মধ্যে পার্থক্য (অর্থাৎ, সবচেয়ে বড় সংখ্যাটি থেকে সবচেয়ে ছোট সংখ্যাটি বাদ দেওয়া)। রেঞ্জ নির্ণয় করার জন্য:

প্রথমে ডেটাসেট থেকে সবচেয়ে বড় এবং সবচেয়ে ছোট সংখ্যাটি নির্ধারণ করুন।
তারপর বড় সংখ্যাটি থেকে ছোট সংখ্যাটি বিয়োগ করুন।

পরিসর (Range) গাণিতিকভাবে নির্ণয় করতে, আপনাকে কেবল ডেটাসেটের ছোট থেকে বড় ক্রমে সাজানো মান নির্ধারণ করতে হবে এবং তারপর বিয়োগ করে পার্থক্যটি বের করতে হবে (উদাহরণস্বরূপ, শুরুতেই সংখ্যাগুলিকে আরোহী ক্রমে সাজালে পরিসর গণনা করা খুব সহজ হয়ে যায়)। এই উদাহরণে, ডেটাসেটের সবচেয়ে বড় সংখ্যা হলো ৮ এবং সবচেয়ে ছোট সংখ্যা হলো ১।
তাই রেঞ্জ = ৮ − ১ = ৭।

import numpy as np
import pandas as pd

# create a sample salary table
salary = pd.DataFrame({
   'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'],
   'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000]
})

# calculate salary range
min_salary = salary['salary'].min()
max_salary = salary['salary'].max()
salary_range = max_salary - min_salary

print('Minimum salary:', min_salary)
print('Maximum salary:', max_salary)
print('Salary range:', salary_range)