গড় (Mean), মধ্যমা (Median), প্রচুরক (Mode) এবং পরিসর (Range) হলো ডেটাসেটের কেন্দ্রীয় প্রবণতা (central tendency) বর্ণনা করতে ব্যবহৃত মৌলিক পরিসংখ্যানগত সরঞ্জাম বা উপাদান—অর্থাৎ, যেখানে বেশিরভাগ মান কেন্দ্রীভূত থাকে। এআই ইঞ্জিনিয়ারিংয়ে, এই পরিমাপগুলি ডেটা কীভাবে ছড়িয়ে আছে তা বুঝতে সাহায্য করে এবং আউটলায়ার (অস্বাভাবিক মান যা প্যাটার্নের সাথে মেলে না) সনাক্ত করতেও সহায়তা করতে পারে।
নিম্নলিখিত বিভাগগুলিতে, আমরা প্রতিটি পরিমাপের অর্থ এবং পাইথন ব্যবহার করে কীভাবে এটি গণনা করতে হয় তা অন্বেষণ করব।
গড় (Mean)
গড় (Mean) হলো একগুচ্ছ সংখ্যার গড় মান। এটি বের করতে, আপনাকে ডেটাসেটের সমস্ত মান একসাথে যোগ করতে হবে এবং তারপর মোট যোগফলকে মোট মানের সংখ্যা দিয়ে ভাগ করতে হবে। গড় আমাদেরকে ডেটার সংখ্যাগুলির সাধারণ আকার সম্পর্কে একটি দ্রুত ধারণা দেয়। তবে, এটি খুব উচ্চ বা খুব কম মান (যাদের আউটলায়ার বা ব্যতিক্রমধর্মী মান বলা হয়) দ্বারা প্রভাবিত হতে পারে, যা গড়কে বেশিরভাগ ডেটা যেখানে থাকে সেখান থেকে দূরে সরিয়ে দিতে পারে।
1 2 3 4 5 6 7 8 9 10 11 12 |
import numpy as np import pandas as pd # create a sample salary table salary = pd.DataFrame({ 'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'], 'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000] }) # calculate mean mean_salary = np.mean(salary['salary']) print('Mean salary:', mean_salary) |
মধ্যমা (Median)
- যদি ডেটাসেটের মোট সংখ্যা বিজোড় হয়, তাহলে মাঝখানের সংখ্যাটিই হবে মধ্যমা।
- আর যদি সংখ্যাটি জোড় হয়, তাহলে মাঝের দুটি সংখ্যার গড় বের করতে হবে – যা মধ্যমা।
1 2 3 4 5 6 7 8 9 10 11 12 |
import numpy as np import pandas as pd # create a sample salary table salary = pd.DataFrame({ 'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'], 'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000] }) # calculate median median_salary = np.median(salary['salary']) print('Median salary:', median_salary) |
প্রচুরক (Mode)
প্রচুরক (Mode) হলো সেই মান যা কোনো একটি ডেটাসেটে সবচেয়ে বেশি সংখ্যকবার দেখা যায়। এটি খুঁজে বের করার জন্য, আপনাকে কেবল সেই সংখ্যাটি দেখতে হবে যা সবচেয়ে বেশিবার ঘটেছে।
- যদি দুটি মান সমান সংখ্যকবার দেখা যায়, তাহলে সেটিকে বাইমোডাল (bimodal) বলে।
- যদি তিনটি মান সমানভাবে পুনরাবৃত্তি হয়, সেটিকে ট্রাইমোডাল (trimodal) বলে।
- তিনটির বেশি মান সমান সংখ্যায় পুনরাবৃত্তি হলে সেটিকে মাল্টিমোডাল (multimodal) বলে।
প্রচুরক (Mode) আমাদেরকে বুঝতে সাহায্য করে কোন মানটি সবচেয়ে সাধারণ বা বেশি দেখা যায়, যা কিছু পরিস্থিতিতে উপযোগী হতে পারে। তবে, যদি ডেটাতে কোনও পুনরাবৃত্ত মান না থাকে বা মানগুলি খুব বেশি ছড়িয়ে থাকে তবে এটি খুব সহায়ক নাও হতে পারে। পাইথনে, আমরা SciPy লাইব্রেরি ব্যবহার করে মোড গণনা করতে পারি, যেখানে mode() নামক একটি ফাংশন রয়েছে।
1 2 3 4 5 6 7 8 9 10 11 12 |
import numpy as np import pandas as pd # create a sample salary table salary = pd.DataFrame({ 'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'], 'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000] }) # calculate mode mode_salary = salary['salary'].mode() print('Mode salary:', mode_salary.tolist()) |
পরিসর (Range)
পরিসর (Range) হলো ডেটাসেটের সর্বোচ্চ এবং সর্বনিম্ন মানের মধ্যে পার্থক্য (অর্থাৎ, সবচেয়ে বড় সংখ্যাটি থেকে সবচেয়ে ছোট সংখ্যাটি বাদ দেওয়া)। রেঞ্জ নির্ণয় করার জন্য:
- প্রথমে ডেটাসেট থেকে সবচেয়ে বড় এবং সবচেয়ে ছোট সংখ্যাটি নির্ধারণ করুন।
- তারপর বড় সংখ্যাটি থেকে ছোট সংখ্যাটি বিয়োগ করুন।
পরিসর (Range) গাণিতিকভাবে নির্ণয় করতে, আপনাকে কেবল ডেটাসেটের ছোট থেকে বড় ক্রমে সাজানো মান নির্ধারণ করতে হবে এবং তারপর বিয়োগ করে পার্থক্যটি বের করতে হবে (উদাহরণস্বরূপ, শুরুতেই সংখ্যাগুলিকে আরোহী ক্রমে সাজালে পরিসর গণনা করা খুব সহজ হয়ে যায়)। এই উদাহরণে, ডেটাসেটের সবচেয়ে বড় সংখ্যা হলো ৮ এবং সবচেয়ে ছোট সংখ্যা হলো ১।
তাই রেঞ্জ = ৮ − ১ = ৭।
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
import numpy as np import pandas as pd # create a sample salary table salary = pd.DataFrame({ 'employee_id': ['001', '002', '003', '004', '005', '006', '007', '008', '009', '010'], 'salary': [50000, 65000, 55000, 45000, 70000, 60000, 55000, 45000, 80000, 70000] }) # calculate salary range min_salary = salary['salary'].min() max_salary = salary['salary'].max() salary_range = max_salary - min_salary print('Minimum salary:', min_salary) print('Maximum salary:', max_salary) print('Salary range:', salary_range) |
Leave a Comment