আর্টিফিশিয়াল ইন্টেলিজেন্স (AI) এখন সংক্ষিপ্ত রূপে ভরপুর – LLM, LCM, LAM, MoE, VLM, SLM, MLM, SAM। নামগুলো দেখে যদি মাথা ঘুরে যায়, দুশ্চিন্তা নেই – আপনি একা নন। প্রতিটা শব্দ আসলে আলাদা ধরনের AI মডেল (Specialized AI Models), যেগুলো আলাদা আলাদা কাজ করতে পারে। (প্রকাশিত: ২৮ মে, ২০২৫, ChatGPT)
এই গাইডে আমরা সহজভাবে ৮ ধরনের (Specialized AI Models) মডেল ব্যাখ্যা করবো আর দেখবো ব্যবসাগুলো কিভাবে এগুলো কাজে লাগাচ্ছে। ইমেইল লেখা থেকে শুরু করে ছবির ভেতর থেকে জিনিসপত্র কেটে নেওয়া পর্যন্ত – এই গাইডে পাবেন একদম নতুন AI দুনিয়ার ঝলক। চলুন তাহলে একে একে নামগুলো খুলি আর দেখি এগুলো আসলে কী আর ব্যবসার জন্য কীভাবে কাজে লাগে।
LLM – Large Language Model
Large Language Model মানে হলো এক ধরনের AI সিস্টেম, যেটা প্রচুর টেক্সটে ট্রেইন করা থাকে। এর ফলে এরা মানুষের মতো ভাষা বুঝতে আর লিখতে পারে। সহজভাবে বললে, LLM হলো সুপার-অ্যাডভান্সড “ওয়ার্ড প্রেডিক্টর” – কথোপকথন চালাতে পারে, প্রশ্নের উত্তর দিতে পারে, বা কনটেন্ট লিখে দিতে পারে। কারণ এরা বিলিয়ন সংখ্যক বাক্য থেকে শিখেছে, তাই নতুন টেক্সট তৈরি করতে দারুণ দক্ষ। ভাবুন যেন ইন্টারনেট পড়ে নেওয়া এক ভার্চুয়াল কমিউনিকেটর, এখন যেকোনো বিষয়ে লিখে বা বলে দিতে পারে।
হাজারো বই, ওয়েবপেজ, চ্যাট লগ ইত্যাদি পড়ে এটাকে শেখানো হয়; তারপর প্রেক্ষাপট দেখে পরবর্তী শব্দ বা বাক্য ‘প্রেডিক্ট’ করে। বড় মডেল শক্তিশালী, কিন্তু প্রাইভেসি/কস্ট ও লেটেন্সি বাড়ে — প্রবলেম হলে SLM বা ফাইন-টিউন করা ছোট মডেল ভাববেন। উধাহরন:
- কাস্টমার সার্ভিস আর চ্যাটবট: যেমন ChatGPT বা Google Bard – এরা গ্রাহকের প্রশ্নের উত্তর মানুষের মতো দেয়, বুকিং করে দেয়, বা সমস্যা সমাধান করে।
- কনটেন্ট লেখা আর সারাংশ করা: ৫০ পেইজের রিপোর্টকে কয়েকটা বুলেট পয়েন্টে নামিয়ে আনতে পারে। ব্লগ পোস্ট বা ইমেইলের খসড়াও লিখে দেয়।
- ডেটা এনালাইসিস আর ডিসিশন সাপোর্ট: ফাইন্যান্স বা সেলস ডেটা পড়ে সহজ ভাষায় সারাংশ বানিয়ে দিতে পারে।
(LLM হলো আসলে “ল্যাঙ্গুয়েজ মাস্টার” – যেখানে ভাষার দরকার, সেখানেই কাজে লাগানো যায়।)
LCM – Latent Consistency Model
LCM মূলত ছবি বানানোর জন্য ব্যবহৃত হয়। আগের ইমেজ জেনারেটরগুলো ধাপে ধাপে ছবি তৈরি করতো, অনেক সময় নিতো। কিন্তু LCM শর্টকাট শিখে নেয় – কম ধাপে, দ্রুত সুন্দর ছবি বানিয়ে দেয়। সহজভাবে বললে, এটা এক্সপ্রেস “আর্ট ইঞ্জিন” – প্রম্পট দিলে দ্রুত কোয়ালিটি ছবি বের করে ফেলে।
ইমেজকে একটা কম্প্রেসড “latent” স্পেসে কাজ করিয়ে, পুরো প্রোসেসটি একটায় বা খুব কম ধাপে শেষ করতে শিখে — তাই দ্রুত। স্পিড পাওয়া গেলেও জেনারেট হওয়া কন্টেন্ট কখনো কখনো আর্টিস্টিক কন্ট্রোল কম লাগতে পারে — কনট্রোল বাড়াতে ইন্টারেকটিভ প্রম্পট/স্টাইল গাইড দরকার। উধাহরন:
- গ্রাফিক ডিজাইন আর মার্কেটিং: ই-কমার্স টিম যদি লিখে “বিচ ব্যাকগ্রাউন্ডসহ সামার সেল ব্যানার,” সাথে সাথেই রেডি ছবি পাওয়া যাবে।
- গেম আর এন্টারটেইনমেন্ট: খেলোয়াড়রা রিয়েল-টাইমে ছবি বা এনভায়রনমেন্ট কাস্টমাইজ করতে পারবে।
- প্রোডাক্ট ডিজাইন: গাড়ি, ফ্যাশন, আর্কিটেকচার – যেকোনো কনসেপ্ট আইডিয়া দ্রুত আঁকা যায়।
(LCM মানে হলো স্পিড – ব্যবসায়ীরা একদম সঙ্গে সঙ্গে আইডিয়াকে ছবিতে রূপ দিতে পারে।)
LAM – Language Action Model
LAM শুধু কথা বোঝে না, কাজও করে। ধরুন বললেন “আগামী মঙ্গলবার নিউইয়র্কের ফ্লাইট বুক করো” – এটা নিজে ওয়েবসাইটে গিয়ে বুকিং করেও দেবে। মানে কথাকে সরাসরি কাজে পরিণত করে। “নতুন এমপ্লয়ি সেটাপ কর” বললেই LAM সব সিস্টেমে প্রোফাইল বানিয়ে দেয়; সেলস টিম: “মাসিক সেলস রিপোর্ট তৈরি করে সবার কাছে শেয়ার কর” — LAM নিজে করে দেয়।
মানুষের UI/UX কিভাবে ব্যবহার করে সেটা “ওয়াচ” করে শিখে; তারপর কমান্ড পেলেই প্রয়োজনীয় ধাপগুলো (ক্লিক, টাইপ, সাবমিট) নিজে করে দেয়। নিরাপত্তা (অটোমেশন কী পারমিশনে কাজ করছে), অডিট ট্রেইল, ও ইউজার কনফার্মেশন গুরুত্বপুর্ন — ভুল কাজ হলে বড় ঝামেলা হতে পারে। উধাহরন:
- ডিজিটাল অ্যাসিস্ট্যান্ট: কেবল উত্তর না দিয়ে ক্যালেন্ডারে মিটিং সেট করা, ইমেইল পাঠানো – সব কাজ করে দেয়।
- অফিসের অটোমেশন: HR, Finance বা IT-র রুটিন কাজগুলো ন্যাচারাল ল্যাঙ্গুয়েজ কমান্ডে করে দেয়।
- অ্যাক্সেসিবিলিটি: জটিল সফটওয়্যার শিখতে হয় না, শুধু বললেই সিস্টেম কাজ করে দেয়।
LAM মানে হলো – আপনার হয়ে কাজ করে দেওয়া অ্যাসিস্ট্যান্ট।
MoE – Mixture of Experts
MoE মানে অনেকগুলো ছোট ছোট এক্সপার্ট মডেল একসাথে। কাজের ধরন বুঝে সঠিক এক্সপার্টকে বেছে নেয়। যেমন, মেডিকেল প্রশ্ন হলে মেডিকেল এক্সপার্ট মডেল জাগে, টেক প্রশ্ন হলে টেক এক্সপার্ট। এতে পাওয়ারফুল হয়, আবার কম্পিউট খরচও বাঁচে। অনেকগুলো বিশেষজ্ঞ-মডেলের সংমিশ্রণ; গেটিং মেকানিজম ঠিক করে কোন এক্সপার্ট কোন প্রশ্নে জাগবে।
ইনপুট অনুযায়ী একটি ‘গেট’ ঠিক করে যে কয়েকটা বিশেষজ্ঞ নির্বাচিত হবে — পুরো সিস্টেম পুরোপুরি চালু হয় না, কেবল প্রাসঙ্গিক অংশগুলোই। MoE দিয়ে স্কেল করা যায় কম খরচে, কিন্তু গেটিং ভুল করলে আউটপুট অননুমেয় হবে — গেটিং লজিক ভালোভাবে টেস্ট করা জরুরি। উধাহরন:
- বড় AI সার্ভিস: সার্চ, কনটেন্ট মডারেশন – ভিন্ন ভিন্ন প্রশ্নে ভিন্ন এক্সপার্ট কাজ করে।
- পার্সোনালাইজড রেকমেন্ডেশন: ভিডিও বা শপিং সাইটে আপনার পছন্দ অনুযায়ী সঠিক এক্সপার্ট সাজেশন দেয়।
- মাল্টি-ডোমেইন অ্যাসিস্ট্যান্ট: কোডিং থেকে মেডিকেল – সব বিষয়ে আলাদা এক্সপার্ট কাজ করে।
MoE মানে হলো – অনেক এক্সপার্টের দল, যাকে দরকার তাকে কাজে লাগানো।
️ VLM – Vision Language Model
VLM ছবি আর ভাষা – দুইটাই বোঝে। ছবি দেখে বর্ণনা দিতে পারে, আবার টেক্সট পড়ে মিল থাকা ছবি খুঁজে দিতে পারে। ইমেজ (ভিশন) এবং টেক্সট (ল্যাঙ্গুয়েজ) দুইটাই একসাথে বুঝে — ছবিকে বর্ণনা করতে পারে, টেক্সট দিয়ে ছবি সনাক্ত করতে পারে।
ছবি থেকে ফিচার বের করে আর এগুলোকে টেক্সট এমবেডিংয়ের সঙ্গে ম্যাচ করে; দুই-মোডালিটির মাঝেই রিলেশন শিখে। ভিজ্যুয়াল এআই-তে টুলিং (crop, preprocess), লেবেল কোয়ালিটি, ও মাল্টিমোডাল ফাইনটিউনিং গুরুত্বপূর্ণ — ভুল লেবেল দিলে ভুল ফল। উধাহরন:
- ইমেজ ক্যাপশনিং: ছবিকে বর্ণনা দিয়ে দেয় – দৃষ্টিপ্রতিবন্ধী মানুষদের জন্য উপকারী।
- ই-কমার্স সার্চ: ছবি দিয়ে খোঁজা, বা “সবুজ ফ্লোরাল জ্যাকেট” লিখলে মিল পাওয়া ছবি বের করে দেয়।
- ভিজ্যুয়াল এনালাইসিস: ক্ষতিগ্রস্ত গাড়ি দেখে বলে দিতে পারে কোন অংশ ভাঙা।
VLM মানে হলো AI-র চোখ আর মুখ একসাথে – ছবি দেখে কথা বলতে পারে।
SLM – Small Language Model
ছোট, হালকা ভাষা মডেল — দ্রুত, কম রিসোর্সে চলে, নির্দিষ্ট ডোমেইনে ভাল পারফর্ম করে। LLM-এর মতো বিশাল না, কিন্তু নির্দিষ্ট কাজের জন্য খুব কার্যকর। কম রিসোর্স লাগে, মোবাইল বা ছোট ডিভাইসেও চালানো যায়।
কম প্যারামিটার, টার্গেটেড ডেটায় ট্রেইন বা ফাইন-টিউন করা; অন-ডিভাইস বা লোকাল সার্ভারে চালানো উপযোগী। প্রাইভেসি চাহিদা থাকলে SLM-এ ডেটা লোকালি রাখাই ভালো; কিন্তু জ্ঞানের পরিসর LLM-এর মতো নয় — মাঝে মাঝে ব্যাকএন্ডে বড় মডেলের সাহায্য লাগতে পারে। উধাহরন:
- অন-ডিভাইস অ্যাসিস্ট্যান্ট: মোবাইলে অফলাইনে স্পিচ-টু-টেক্সট বা ওয়ার্ড সাজেশন দেয়।
- ডোমেইন-স্পেসিফিক চ্যাটবট: নির্দিষ্ট কোম্পানির ডেটা বা মেডিকেল গাইডলাইন নিয়ে কাজ করতে পারে।
- লো-কস্ট AI সলিউশন: ছোট কোম্পানিও কম খরচে কাজে লাগাতে পারে।
SLM প্রমাণ করে – সবসময় বড় না, ছোটটাও কাজে লাগে।
️ MLM – Masked Language Model
MLM হলো এমন মডেল যেটাকে বাক্যের কিছু অংশ ফাঁকা রেখে শেখানো হয় – যেন ওটা আন্দাজ করে পূরণ করে। যেমন: “আজ স্টক মার্কেট [MASK]” → মডেল শিখবে “ডাউন” বা “ভোলাটাইল” বসাতে। BERT নামক জনপ্রিয় মডেল এইভাবে বানানো। স্ট্র্যাটেজি যেখানে বাক্যের কিছু শব্দ [MASK] করে মডেলকে সেগুলো পূরণ করতে শেখানো হয় (উদাহরণ: BERT)।
বাম ও ডান উভয় কনটেক্সট একসাথে দেখে মিসিং শব্দটা অনুমান করা—এভাবে ভাষার গভীর কাঠামো শিখে। MLM-স্টাইল মডেলগুলি প্রাক-প্রশিক্ষণের জন্য দারুণ — কিন্তু জেনারেটিভ কাজ (ধারাবাহিক টেক্সট লিখা) করলে আলাদা আর্কিটেকচার দরকার হতে পারে। উধাহরন:
- সার্চ ইঞ্জিন: Google সার্চ এখন অনেক ভালোভাবে লম্বা প্রশ্ন বোঝে – এর পেছনে আছে MLM ট্রেনিং।
- রাইটিং এইড: Grammarly-র মতো টুল গ্রামার ঠিক করে দেয়, বাক্য সাজেস্ট করে।
- ডোমেইন মডেল ফাউন্ডেশন: মেডিকেল বা ফাইন্যান্সের বিশেষায়িত মডেল ট্রেনিংয়ে বেস হিসেবে ব্যবহৃত হয়।
MLM মানে হলো – কনটেক্সট মাস্টার, ফাঁকা জায়গা পূরণ করে শিখে।
✂️ SAM – Segment Anything Model
Meta বানানো এই মডেল যেকোনো ছবিতে অবজেক্ট আলাদা করে ফেলতে পারে। শুধু ক্লিক বা বক্স দেখালেই সেটা নিখুঁতভাবে কাটবে। ভাবুন একজোড়া ডিজিটাল কাঁচি – ব্যাকগ্রাউন্ড রিমুভ, অবজেক্ট কাট – সব সেকেন্ডে। ছবির যেকোনো অবজেক্টকে দ্রুত ও নির্ভুলভাবে সেগমেন্ট (কাটা/আলাদা) করে দেয় — খুব কম প্রম্পট (একটা ক্লিক/বক্স) দিয়েই।
বিশাল ইমেজ ডাটাসেটে ট্রেন করে, পিক্সেল-লেভেলে অবজেক্ট বাউন্ডারি ধরতে পারে—কোনো সাবজেক্টকে আলাদা মাস্ক হিসেবে ফিরিয়ে দেয়। SAM অনেক জেনেরাল, কিন্তু স্পেসিফিক টাস্কে (উদাহরণ: টিউমারের টাইটাল সেগমেন্ট) এক্সপার্ট ফাইন-টিউনিং ও মানব ভেরিফিকেশন দরকার। উধাহরন:
- ইমেজ এডিটিং: ফটোশপে লাসো টুল দিয়ে সময় নষ্ট করতে হয় না – SAM ক্লিকেই অবজেক্ট আলাদা করে দেয়।
- AR/VR: চশমা দিয়ে কোনো মেশিনে তাকালে সেটাকে আলাদা করে হাইলাইট করতে পারে।
- ডেটা অ্যানোটেশন: গবেষকরা দ্রুত মেডিকেল ইমেজ বা ফ্যাক্টরি প্রোডাক্ট আলাদা করে লেবেল দিতে পারে।
SAM হলো AI কাঁচি – ছবি থেকে যেকোনো জিনিস কাটতে পারে বিদ্যুৎগতিতে।
এই ৮ Specialized AI Models – LLM, LCM, LAM, MoE, VLM, SLM, MLM, SAM – একেকটা আলাদা শক্তি নিয়ে এসেছে। ভাষা বোঝা, ছবি তৈরি, কাজ করে দেওয়া, অবজেক্ট কাট – সব ক্ষেত্রেই ব্যবসার কাজে এগুলো দারুণ ব্যবহার হচ্ছে।

Leave a Comment