আর্টিফিশিয়াল ইন্টেলিজেন্স (AI) এখন সংক্ষিপ্ত রূপে ভরপুর – LLM, LCM, LAM, MoE, VLM, SLM, MLM, SAM। নামগুলো দেখে যদি মাথা ঘুরে যায়, দুশ্চিন্তা নেই – আপনি একা নন। প্রতিটা শব্দ আসলে আলাদা ধরনের AI মডেল (Specialized AI Models), যেগুলো আলাদা আলাদা কাজ করতে পারে। (প্রকাশিত: ২৮ মে, ২০২৫, ChatGPT)

এই গাইডে আমরা সহজভাবে ধরনের (Specialized AI Models) মডেল ব্যাখ্যা করবো আর দেখবো ব্যবসাগুলো কিভাবে এগুলো কাজে লাগাচ্ছে। ইমেইল লেখা থেকে শুরু করে ছবির ভেতর থেকে জিনিসপত্র কেটে নেওয়া পর্যন্ত – এই গাইডে পাবেন একদম নতুন AI দুনিয়ার ঝলক। চলুন তাহলে একে একে নামগুলো খুলি আর দেখি এগুলো আসলে কী আর ব্যবসার জন্য কীভাবে কাজে লাগে।

 

LLM – Large Language Model

Large Language Model মানে হলো এক ধরনের AI সিস্টেম, যেটা প্রচুর টেক্সটে ট্রেইন করা থাকে। এর ফলে এরা মানুষের মতো ভাষা বুঝতে আর লিখতে পারে। সহজভাবে বললে, LLM হলো সুপার-অ্যাডভান্সড “ওয়ার্ড প্রেডিক্টর” – কথোপকথন চালাতে পারে, প্রশ্নের উত্তর দিতে পারে, বা কনটেন্ট লিখে দিতে পারে। কারণ এরা বিলিয়ন সংখ্যক বাক্য থেকে শিখেছে, তাই নতুন টেক্সট তৈরি করতে দারুণ দক্ষ। ভাবুন যেন ইন্টারনেট পড়ে নেওয়া এক ভার্চুয়াল কমিউনিকেটর, এখন যেকোনো বিষয়ে লিখে বা বলে দিতে পারে।

হাজারো বই, ওয়েবপেজ, চ্যাট লগ ইত্যাদি পড়ে এটাকে শেখানো হয়; তারপর প্রেক্ষাপট দেখে পরবর্তী শব্দ বা বাক্য ‘প্রেডিক্ট’ করে। বড় মডেল শক্তিশালী, কিন্তু প্রাইভেসি/কস্ট ও লেটেন্সি বাড়ে — প্রবলেম হলে SLM বা ফাইন-টিউন করা ছোট মডেল ভাববেন। উধাহরন:

  • কাস্টমার সার্ভিস আর চ্যাটবট: যেমন ChatGPT বা Google Bard – এরা গ্রাহকের প্রশ্নের উত্তর মানুষের মতো দেয়, বুকিং করে দেয়, বা সমস্যা সমাধান করে।
  • কনটেন্ট লেখা আর সারাংশ করা: ৫০ পেইজের রিপোর্টকে কয়েকটা বুলেট পয়েন্টে নামিয়ে আনতে পারে। ব্লগ পোস্ট বা ইমেইলের খসড়াও লিখে দেয়।
  • ডেটা এনালাইসিস আর ডিসিশন সাপোর্ট: ফাইন্যান্স বা সেলস ডেটা পড়ে সহজ ভাষায় সারাংশ বানিয়ে দিতে পারে।

(LLM হলো আসলে “ল্যাঙ্গুয়েজ মাস্টার” – যেখানে ভাষার দরকার, সেখানেই কাজে লাগানো যায়।)

 

LCM – Latent Consistency Model

LCM মূলত ছবি বানানোর জন্য ব্যবহৃত হয়। আগের ইমেজ জেনারেটরগুলো ধাপে ধাপে ছবি তৈরি করতো, অনেক সময় নিতো। কিন্তু LCM শর্টকাট শিখে নেয় – কম ধাপে, দ্রুত সুন্দর ছবি বানিয়ে দেয়। সহজভাবে বললে, এটা এক্সপ্রেস “আর্ট ইঞ্জিন” – প্রম্পট দিলে দ্রুত কোয়ালিটি ছবি বের করে ফেলে।

ইমেজকে একটা কম্প্রেসড “latent” স্পেসে কাজ করিয়ে, পুরো প্রোসেসটি একটায় বা খুব কম ধাপে শেষ করতে শিখে — তাই দ্রুত। স্পিড পাওয়া গেলেও জেনারেট হওয়া কন্টেন্ট কখনো কখনো আর্টিস্টিক কন্ট্রোল কম লাগতে পারে — কনট্রোল বাড়াতে ইন্টারেকটিভ প্রম্পট/স্টাইল গাইড দরকার। উধাহরন:

  • গ্রাফিক ডিজাইন আর মার্কেটিং: ই-কমার্স টিম যদি লিখে “বিচ ব্যাকগ্রাউন্ডসহ সামার সেল ব্যানার,” সাথে সাথেই রেডি ছবি পাওয়া যাবে।
  • গেম আর এন্টারটেইনমেন্ট: খেলোয়াড়রা রিয়েল-টাইমে ছবি বা এনভায়রনমেন্ট কাস্টমাইজ করতে পারবে।
  • প্রোডাক্ট ডিজাইন: গাড়ি, ফ্যাশন, আর্কিটেকচার – যেকোনো কনসেপ্ট আইডিয়া দ্রুত আঁকা যায়।

(LCM মানে হলো স্পিড – ব্যবসায়ীরা একদম সঙ্গে সঙ্গে আইডিয়াকে ছবিতে রূপ দিতে পারে।)

 

LAM – Language Action Model

LAM শুধু কথা বোঝে না, কাজও করে। ধরুন বললেন “আগামী মঙ্গলবার নিউইয়র্কের ফ্লাইট বুক করো” – এটা নিজে ওয়েবসাইটে গিয়ে বুকিং করেও দেবে। মানে কথাকে সরাসরি কাজে পরিণত করে। “নতুন এমপ্লয়ি সেটাপ কর” বললেই LAM সব সিস্টেমে প্রোফাইল বানিয়ে দেয়; সেলস টিম: “মাসিক সেলস রিপোর্ট তৈরি করে সবার কাছে শেয়ার কর” — LAM নিজে করে দেয়।

মানুষের UI/UX কিভাবে ব্যবহার করে সেটা “ওয়াচ” করে শিখে; তারপর কমান্ড পেলেই প্রয়োজনীয় ধাপগুলো (ক্লিক, টাইপ, সাবমিট) নিজে করে দেয়। নিরাপত্তা (অটোমেশন কী পারমিশনে কাজ করছে), অডিট ট্রেইল, ও ইউজার কনফার্মেশন গুরুত্বপুর্ন — ভুল কাজ হলে বড় ঝামেলা হতে পারে। উধাহরন:

  • ডিজিটাল অ্যাসিস্ট্যান্ট: কেবল উত্তর না দিয়ে ক্যালেন্ডারে মিটিং সেট করা, ইমেইল পাঠানো – সব কাজ করে দেয়।
  • অফিসের অটোমেশন: HR, Finance বা IT-র রুটিন কাজগুলো ন্যাচারাল ল্যাঙ্গুয়েজ কমান্ডে করে দেয়।
  • অ্যাক্সেসিবিলিটি: জটিল সফটওয়্যার শিখতে হয় না, শুধু বললেই সিস্টেম কাজ করে দেয়।

LAM মানে হলো – আপনার হয়ে কাজ করে দেওয়া অ্যাসিস্ট্যান্ট।

 

MoE – Mixture of Experts

MoE মানে অনেকগুলো ছোট ছোট এক্সপার্ট মডেল একসাথে। কাজের ধরন বুঝে সঠিক এক্সপার্টকে বেছে নেয়। যেমন, মেডিকেল প্রশ্ন হলে মেডিকেল এক্সপার্ট মডেল জাগে, টেক প্রশ্ন হলে টেক এক্সপার্ট। এতে পাওয়ারফুল হয়, আবার কম্পিউট খরচও বাঁচে। অনেকগুলো বিশেষজ্ঞ-মডেলের সংমিশ্রণ; গেটিং মেকানিজম ঠিক করে কোন এক্সপার্ট কোন প্রশ্নে জাগবে।

ইনপুট অনুযায়ী একটি ‘গেট’ ঠিক করে যে কয়েকটা বিশেষজ্ঞ নির্বাচিত হবে — পুরো সিস্টেম পুরোপুরি চালু হয় না, কেবল প্রাসঙ্গিক অংশগুলোই। MoE দিয়ে স্কেল করা যায় কম খরচে, কিন্তু গেটিং ভুল করলে আউটপুট অননুমেয় হবে — গেটিং লজিক ভালোভাবে টেস্ট করা জরুরি। উধাহরন:

  • বড় AI সার্ভিস: সার্চ, কনটেন্ট মডারেশন – ভিন্ন ভিন্ন প্রশ্নে ভিন্ন এক্সপার্ট কাজ করে।
  • পার্সোনালাইজড রেকমেন্ডেশন: ভিডিও বা শপিং সাইটে আপনার পছন্দ অনুযায়ী সঠিক এক্সপার্ট সাজেশন দেয়।
  • মাল্টি-ডোমেইন অ্যাসিস্ট্যান্ট: কোডিং থেকে মেডিকেল – সব বিষয়ে আলাদা এক্সপার্ট কাজ করে।

MoE মানে হলো – অনেক এক্সপার্টের দল, যাকে দরকার তাকে কাজে লাগানো।

 

VLM – Vision Language Model

VLM ছবি আর ভাষা – দুইটাই বোঝে। ছবি দেখে বর্ণনা দিতে পারে, আবার টেক্সট পড়ে মিল থাকা ছবি খুঁজে দিতে পারে। ইমেজ (ভিশন) এবং টেক্সট (ল্যাঙ্গুয়েজ) দুইটাই একসাথে বুঝে — ছবিকে বর্ণনা করতে পারে, টেক্সট দিয়ে ছবি সনাক্ত করতে পারে।

ছবি থেকে ফিচার বের করে আর এগুলোকে টেক্সট এমবেডিংয়ের সঙ্গে ম্যাচ করে; দুই-মোডালিটির মাঝেই রিলেশন শিখে। ভিজ্যুয়াল এআই-তে টুলিং (crop, preprocess), লেবেল কোয়ালিটি, ও মাল্টিমোডাল ফাইনটিউনিং গুরুত্বপূর্ণ — ভুল লেবেল দিলে ভুল ফল। উধাহরন:

  • ইমেজ ক্যাপশনিং: ছবিকে বর্ণনা দিয়ে দেয় – দৃষ্টিপ্রতিবন্ধী মানুষদের জন্য উপকারী।
  • ই-কমার্স সার্চ: ছবি দিয়ে খোঁজা, বা “সবুজ ফ্লোরাল জ্যাকেট” লিখলে মিল পাওয়া ছবি বের করে দেয়।
  • ভিজ্যুয়াল এনালাইসিস: ক্ষতিগ্রস্ত গাড়ি দেখে বলে দিতে পারে কোন অংশ ভাঙা।

VLM মানে হলো AI-র চোখ আর মুখ একসাথে – ছবি দেখে কথা বলতে পারে।

 

SLM – Small Language Model

ছোট, হালকা ভাষা মডেল — দ্রুত, কম রিসোর্সে চলে, নির্দিষ্ট ডোমেইনে ভাল পারফর্ম করে। LLM-এর মতো বিশাল না, কিন্তু নির্দিষ্ট কাজের জন্য খুব কার্যকর। কম রিসোর্স লাগে, মোবাইল বা ছোট ডিভাইসেও চালানো যায়।

কম প্যারামিটার, টার্গেটেড ডেটায় ট্রেইন বা ফাইন-টিউন করা; অন-ডিভাইস বা লোকাল সার্ভারে চালানো উপযোগী। প্রাইভেসি চাহিদা থাকলে SLM-এ ডেটা লোকালি রাখাই ভালো; কিন্তু জ্ঞানের পরিসর LLM-এর মতো নয় — মাঝে মাঝে ব্যাকএন্ডে বড় মডেলের সাহায্য লাগতে পারে। উধাহরন:

  • অন-ডিভাইস অ্যাসিস্ট্যান্ট: মোবাইলে অফলাইনে স্পিচ-টু-টেক্সট বা ওয়ার্ড সাজেশন দেয়।
  • ডোমেইন-স্পেসিফিক চ্যাটবট: নির্দিষ্ট কোম্পানির ডেটা বা মেডিকেল গাইডলাইন নিয়ে কাজ করতে পারে।
  • লো-কস্ট AI সলিউশন: ছোট কোম্পানিও কম খরচে কাজে লাগাতে পারে।

SLM প্রমাণ করে – সবসময় বড় না, ছোটটাও কাজে লাগে।

 

MLM – Masked Language Model

MLM হলো এমন মডেল যেটাকে বাক্যের কিছু অংশ ফাঁকা রেখে শেখানো হয় – যেন ওটা আন্দাজ করে পূরণ করে। যেমন: “আজ স্টক মার্কেট [MASK]” → মডেল শিখবে “ডাউন” বা “ভোলাটাইল” বসাতে। BERT নামক জনপ্রিয় মডেল এইভাবে বানানো। স্ট্র্যাটেজি যেখানে বাক্যের কিছু শব্দ [MASK] করে মডেলকে সেগুলো পূরণ করতে শেখানো হয় (উদাহরণ: BERT)।

বাম ও ডান উভয় কনটেক্সট একসাথে দেখে মিসিং শব্দটা অনুমান করা—এভাবে ভাষার গভীর কাঠামো শিখে। MLM-স্টাইল মডেলগুলি প্রাক-প্রশিক্ষণের জন্য দারুণ — কিন্তু জেনারেটিভ কাজ (ধারাবাহিক টেক্সট লিখা) করলে আলাদা আর্কিটেকচার দরকার হতে পারে। উধাহরন:

  • সার্চ ইঞ্জিন: Google সার্চ এখন অনেক ভালোভাবে লম্বা প্রশ্ন বোঝে – এর পেছনে আছে MLM ট্রেনিং।
  • রাইটিং এইড: Grammarly-র মতো টুল গ্রামার ঠিক করে দেয়, বাক্য সাজেস্ট করে।
  • ডোমেইন মডেল ফাউন্ডেশন: মেডিকেল বা ফাইন্যান্সের বিশেষায়িত মডেল ট্রেনিংয়ে বেস হিসেবে ব্যবহৃত হয়।

MLM মানে হলো – কনটেক্সট মাস্টার, ফাঁকা জায়গা পূরণ করে শিখে।

 

✂️ SAM – Segment Anything Model

Meta বানানো এই মডেল যেকোনো ছবিতে অবজেক্ট আলাদা করে ফেলতে পারে। শুধু ক্লিক বা বক্স দেখালেই সেটা নিখুঁতভাবে কাটবে। ভাবুন একজোড়া ডিজিটাল কাঁচি – ব্যাকগ্রাউন্ড রিমুভ, অবজেক্ট কাট – সব সেকেন্ডে। ছবির যেকোনো অবজেক্টকে দ্রুত ও নির্ভুলভাবে সেগমেন্ট (কাটা/আলাদা) করে দেয় — খুব কম প্রম্পট (একটা ক্লিক/বক্স) দিয়েই।

বিশাল ইমেজ ডাটাসেটে ট্রেন করে, পিক্সেল-লেভেলে অবজেক্ট বাউন্ডারি ধরতে পারে—কোনো সাবজেক্টকে আলাদা মাস্ক হিসেবে ফিরিয়ে দেয়। SAM অনেক জেনেরাল, কিন্তু স্পেসিফিক টাস্কে (উদাহরণ: টিউমারের টাইটাল সেগমেন্ট) এক্সপার্ট ফাইন-টিউনিং ও মানব ভেরিফিকেশন দরকার। উধাহরন:

  • ইমেজ এডিটিং: ফটোশপে লাসো টুল দিয়ে সময় নষ্ট করতে হয় না – SAM ক্লিকেই অবজেক্ট আলাদা করে দেয়।
  • AR/VR: চশমা দিয়ে কোনো মেশিনে তাকালে সেটাকে আলাদা করে হাইলাইট করতে পারে।
  • ডেটা অ্যানোটেশন: গবেষকরা দ্রুত মেডিকেল ইমেজ বা ফ্যাক্টরি প্রোডাক্ট আলাদা করে লেবেল দিতে পারে।

SAM হলো AI কাঁচি – ছবি থেকে যেকোনো জিনিস কাটতে পারে বিদ্যুৎগতিতে।

 

এই ৮ Specialized AI Models – LLM, LCM, LAM, MoE, VLM, SLM, MLM, SAM – একেকটা আলাদা শক্তি নিয়ে এসেছে। ভাষা বোঝা, ছবি তৈরি, কাজ করে দেওয়া, অবজেক্ট কাট – সব ক্ষেত্রেই ব্যবসার কাজে এগুলো দারুণ ব্যবহার হচ্ছে।

Specialized AI Models

Leave a Comment