আমরা যখন Artificial Intelligence (AI) অথবা Machine Learning (ML) শিখি, তখন ডেটা সবচেয়ে গুরুত্বপূর্ণ বিষয়। কারণ – ডেটা ভালো হলে মডেল ভালো হবে। আর খারাপ ডেটা থেকে ভালো মডেল আশা করা যায় না। তাহলে প্রশ্ন হলো – ডেটা কোথা থেকে আসে? এই ব্লগে আমরা তিনটি প্রধান ডেটার উৎস (Sources of Data) শিখব |

 

ডেটা বিশ্লেষণের জন্য সঠিক উৎস থেকে তথ্য সংগ্রহ করা অত্যন্ত গুরুত্বপূর্ণ। বিভিন্ন পদ্ধতির মাধ্যমে ডেটা সংগ্রহ করা যায়, যেমন স্যাম্পলিং, ডিজাইন অফ এক্সপেরিমেন্ট (DoE), এবং অ্যাডমিনিস্ট্রেটিভ রেকর্ড ও অবজার্ভেশনাল ডেটা। এই ব্লগে আমরা এই পদ্ধতিগুলো বাংলায় সহজভাবে ব্যাখ্যা করব।

১. স্যাম্পলিং (Sampling)

স্যাম্পলিং হলো একটি বৃহৎ জনগোষ্ঠী বা পপুলেশন থেকে একটি ছোট অংশ (স্যাম্পল) নির্বাচন করার প্রক্রিয়া। এই পদ্ধতিতে পুরো জনগোষ্ঠীর পরিবর্তে শুধুমাত্র স্যাম্পলের তথ্য সংগ্রহ করে বিশ্লেষণ করা হয়। এটি সময়, শ্রম এবং খরচ কমায়।

  • উদাহরণ: ধরুন, আমরা একটি শহরের মানুষের বয়সের তথ্য থেকে নমুনা নিতে চাই। এখানে আমরা একটি বড় জনগোষ্ঠী (যেমন, ১০০০ জনের তথ্য) থেকে এলোমেলোভাবে ১০০ জনের নমুনা (sample) নির্বাচন করব।
  • কেন ব্যবহার করা হয়? স্যাম্পলিং ব্যবহার করা হয় কারণ পুরো জনগোষ্ঠীর তথ্য সংগ্রহ করা কঠিন এবং ব্যয়বহুল। সঠিকভাবে স্যাম্পল নির্বাচন করলে এটি পুরো জনগোষ্ঠীর প্রতিনিধিত্ব করতে পারে।

ব্যাখ্যা:

  • আমরা random.randint ব্যবহার করে ১৫ থেকে ৮০ বছরের মধ্যে ১০০০ জনের বয়সের একটি তালিকা তৈরি করেছি।
  • random.sample ফাংশন দিয়ে এলোমেলোভাবে ১০০ জনের বয়স নির্বাচন করা হয়েছে।
  • numpy-এর mean ফাংশন দিয়ে নমুনার গড় বয়স বের করা হয়েছে।
  • এটি দেখায় কীভাবে একটি বড় জনগোষ্ঠী থেকে ছোট নমুনা নিয়ে বিশ্লেষণ করা যায়।

 

২. ডিজাইন অফ এক্সপেরিমেন্ট (Design of Experiment – DoE)

ডিজাইন অফ এক্সপেরিমেন্ট হলো এমন একটি পদ্ধতি যেখানে গবেষক কিছু নির্দিষ্ট উপাদান বা শর্ত পরিবর্তন করে তার প্রভাব পর্যবেক্ষণ করেন। এটি সাধারণত চিকিৎসা, কৃষি, এবং শিল্প গবেষণায় ব্যবহৃত হয়।

  • উদাহরণ: একটি নতুন ওষুধের কার্যকারিতা পরীক্ষা করতে গবেষক একদল রোগীকে ওষুধ দেন এবং অন্য দলকে প্লাসিবো (নকল ওষুধ) দেন। তারপর তিনি তুলনা করেন কোন দলের স্বাস্থ্যের উন্নতি বেশি হয়েছে।
  • কেন গুরুত্বপূর্ণ? এই পদ্ধতি কারণ ও ফলাফলের সম্পর্ক স্পষ্টভাবে বোঝার জন্য নিয়ন্ত্রিত পরিবেশে তথ্য সংগ্রহ করে। এটি বিশেষ করে নতুন পণ্য বা পদ্ধতির কার্যকারিতা পরীক্ষার জন্য উপযোগী।

ব্যাখ্যা:

  • আমরা numpy ব্যবহার করে দুটি গ্রুপের জন্য সুস্থতার সময়ের ডেটা তৈরি করেছি: একটি কম ডোজ (গড় ১০ দিন) এবং একটি বেশি ডোজ (গড় ৮ দিন)।
  • pandas দিয়ে ডেটা সংরক্ষণ করে গ্রুপ অনুযায়ী গড় বের করা হয়েছে।
  • scipy.stats.ttest_ind দিয়ে t-test করা হয়েছে যাতে দেখা যায় দুটি গ্রুপের মধ্যে উল্লেখযোগ্য পার্থক্য আছে কি না।
  • এটি দেখায় কীভাবে একটি নিয়ন্ত্রিত পরীক্ষা (DoE) করে ফলাফল বিশ্লেষণ করা যায়।

 

৩. অ্যাডমিনিস্ট্রেটিভ রেকর্ড এবং অবজার্ভেশনাল ডেটা

এই পদ্ধতিতে বিদ্যমান রেকর্ড বা প্রাকৃতিক পর্যবেক্ষণ থেকে তথ্য সংগ্রহ করা হয়। এটি দুই ধরনের হতে পারে:

  • অ্যাডমিনিস্ট্রেটিভ রেকর্ড: এটি সরকারি বা বেসরকারি প্রতিষ্ঠানের রেকর্ড থেকে সংগ্রহ করা তথ্য। যেমন, হাসপাতালের রোগীর তথ্য, স্কুলের ছাত্রদের রেকর্ড, বা জনসংখ্যার সরকারি তথ্য।
  • অবজার্ভেশনাল ডেটা: এটি এমন তথ্য যা কোনো নিয়ন্ত্রণ ছাড়াই পর্যবেক্ষণের মাধ্যমে সংগ্রহ করা হয়। গবেষক শুধু পরিস্থিতি পর্যবেক্ষণ করেন এবং তথ্য রেকর্ড করেন।
  • উদাহরণ: একটি পার্কে কতজন মানুষ সকালে ব্যায়াম করতে আসে তা পর্যবেক্ষণ করে তথ্য সংগ্রহ করা।
  • কেন ব্যবহার করা হয়? এই তথ্য সহজলভ্য এবং প্রাকৃতিক পরিবেশের প্রতিফলন ঘটায়। তবে এটির মাধ্যমে কারণ-ফলাফল সম্পর্ক সবসময় স্পষ্ট হয় না।

ব্যাখ্যা:

  • আমরা একটি ছোট ডেটাসেট তৈরি করেছি যেখানে রোগীর বয়স এবং হাসপাতালে থাকার দিনের তথ্য আছে।
  • pandas ব্যবহার করে ডেটার সারাংশ (গড়, মিনিমাম, ম্যাক্সিমাম ইত্যাদি) বের করা হয়েছে।
  • বয়স এবং হাসপাতালে থাকার দিনের মধ্যে সম্পর্ক (correlation) পরীক্ষা করা হয়েছে।
  • বয়সের গ্রুপ (যুবক, মধ্যবয়সী, প্রবীণ) অনুযায়ী গড় হাসপাতালে থাকার দিন বের করা হয়েছে।
  • এটি দেখায় কীভাবে বিদ্যমান রেকর্ড (অ্যাডমিনিস্ট্রেটিভ ডেটা) বিশ্লেষণ করা যায়।

 

ডেটার উৎস নির্বাচন করা গবেষণার ধরন এবং উদ্দেশ্যের উপর নির্ভর করে। স্যাম্পলিং সময় ও খরচ বাঁচায়, ডিজাইন অফ এক্সপেরিমেন্ট কারণ-ফলাফল সম্পর্ক বোঝায়, এবং অ্যাডমিনিস্ট্রেটিভ ও অবজার্ভেশনাল ডেটা সহজলভ্য তথ্য সরবরাহ করে। সঠিক পদ্ধতি বেছে নিলে গবেষণার ফলাফল আরও নির্ভরযোগ্য এবং কার্যকর হবে।

Sources of Data

Leave a Comment