HackCert
Intermediate 10 min read May 25, 2026

Data Poisoning: এআই মডেলের ট্রেইনিং ডেটা ম্যানিপুলেট করে সিস্টেম ধ্বংস করার পদ্ধতি!

Data Poisoning কীভাবে AI/ML মডেলের নিরাপত্তা ক্ষতিগ্রস্ত করে এবং কীভাবে আধুনিক MLOps পরিবেশে এই হুমকি প্রতিরোধ করা যায়।

Rokibul Islam
AI Security Researcher
share
Data Poisoning: এআই মডেলের ট্রেইনিং ডেটা ম্যানিপুলেট করে সিস্টেম ধ্বংস করার পদ্ধতি!
Overview

কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং আমাদের জীবনের প্রতিটি ক্ষেত্রে ছড়িয়ে পড়েছে - স্বাস্থ্যসেবার রোগ নির্ণয় থেকে শুরু করে আর্থিক সেবার fraud detection, স্বচালিত গাড়ি থেকে সাইবার নিরাপত্তার threat detection পর্যন্ত। কিন্তু এই AI সিস্টেমগুলোর কার্যকারিতা সম্পূর্ণভাবে নির্ভর করে যে ডেটার উপর সেগুলো প্রশিক্ষিত হয়। যদি সেই training data manipulate করা যায়, তাহলে সবচেয়ে উন্নত AI সিস্টেমও বিভ্রান্ত করা সম্ভব। Data Poisoning হলো ঠিক এমনই একটি আক্রমণ যেখানে আক্রমণকারী training data-তে ইচ্ছাকৃতভাবে দূষিত নমুনা ইনজেক্ট করে মডেলকে ভুলভাবে শিখতে বাধ্য করেন। এই আর্টিকেলে আমরা Data Poisoning-এর গভীর জগৎ, বিভিন্ন আক্রমণ কৌশল, বাস্তব প্রভাব এবং আধুনিক প্রতিরক্ষা ব্যবস্থা বিস্তারিতভাবে আলোচনা করব।

Data Poisoning-এর মূল ধারণা

Data Poisoning হলো একটি adversarial attack যেখানে আক্রমণকারী মেশিন লার্নিং মডেলের training data-কে কৌশলগতভাবে modify, inject বা contaminate করেন। উদ্দেশ্য হতে পারে মডেলের overall accuracy কমানো, নির্দিষ্ট পরিস্থিতিতে ভুল prediction করানো, বা একটি secret backdoor স্থাপন করা যা পরবর্তীতে exploit করা যাবে।

MLOps pipeline-এ ডেটা একটি সমালোচনামূলক attack surface। আধুনিক AI সিস্টেম প্রায়শই বিভিন্ন উৎস থেকে data সংগ্রহ করে - public dataset, web scraping, user-submitted content, third-party data provider, এবং internal logs। প্রতিটি উৎসই potential poisoning vector।

Data Poisoning আক্রমণগুলো OWASP Top 10 for LLM Applications-এ উল্লেখযোগ্য স্থান পেয়েছে। MITRE ATLAS framework (Adversarial Threat Landscape for Artificial-Intelligence Systems) AI-নির্দিষ্ট threat modeling-এ এই attack pattern-গুলো নথিভুক্ত করেছে।

Adversarial Machine Learning-এর জগতে Data Poisoning evasion attack-এর থেকে আলাদা। Evasion attack inference time-এ ঘটে যেখানে আক্রমণকারী একটি tampered input দিয়ে মডেলকে বিভ্রান্ত করেন। Data Poisoning training time-এ ঘটে এবং মডেলকেই corrupt করে। ফলে প্রতিটি পরবর্তী prediction প্রভাবিত হয়।

Data Poisoning-এর প্রধান শ্রেণী

Data Poisoning আক্রমণ বিভিন্ন উপায়ে শ্রেণিবদ্ধ করা যায়। প্রথম শ্রেণী হলো Availability Attack যার উদ্দেশ্য মডেলের overall performance কমানো। আক্রমণকারীরা label noise বা malicious sample যোগ করে মডেলকে এমনভাবে confused করেন যে সাধারণ accuracy ব্যাপকভাবে কমে যায়। এই ধরনের attack-এ পুরো মডেল অকার্যকর হয়ে পড়ে।

দ্বিতীয় শ্রেণী হলো Integrity Attack বা Targeted Attack যেখানে মডেল নির্দিষ্ট কিছু input-এ ভুল prediction দেয় কিন্তু overall accuracy স্বাভাবিক থাকে। এটি অনেক বেশি বিপজ্জনক কারণ মডেলের সমস্যা সহজে শনাক্ত হয় না। উদাহরণস্বরূপ, একটি spam filter সাধারণ spam ধরতে পারে কিন্তু আক্রমণকারীর নির্দিষ্ট spam pattern miss করে।

তৃতীয় শ্রেণী হলো Backdoor Attack বা Trojan Attack যা সবচেয়ে পরিশীলিত। আক্রমণকারী training data-তে এমন একটি trigger pattern এম্বেড করেন যা পরবর্তীতে inference time-এ exploit করা যায়। সাধারণ input-এ মডেল স্বাভাবিক কাজ করে, কিন্তু trigger উপস্থিত থাকলে আক্রমণকারীর ইচ্ছামতো output প্রদান করে।

Backdoor Attack-এর একটি ক্লাসিক উদাহরণ হলো image classifier-এ একটি ছোট sticker দিয়ে stop sign-কে speed limit sign হিসেবে শনাক্ত করানো। স্বচালিত গাড়ি এই ধরনের আক্রমণে ভয়াবহ পরিণতি ভোগ করতে পারে।

চতুর্থ শ্রেণী হলো Privacy Attack যেখানে আক্রমণকারীর উদ্দেশ্য মডেল থেকে training data সম্পর্কে তথ্য বের করা। Membership Inference Attack-এ আক্রমণকারী নির্ধারণ করেন একটি নির্দিষ্ট সদস্য training set-এ ছিল কি না। Model Inversion Attack-এ training data পুনর্গঠন করার চেষ্টা হয়।

আক্রমণ কৌশল এবং পদ্ধতি

Label Flipping সবচেয়ে সরল Data Poisoning কৌশল। আক্রমণকারী training data-এর কিছু sample-এর label পরিবর্তন করেন। উদাহরণস্বরূপ, malware sample-গুলোকে "benign" হিসেবে label করা। এই ধরনের আক্রমণ সহজে বাস্তবায়ন করা যায় কিন্তু statistical analysis-এ ধরা পড়তে পারে।

Clean-Label Attack অনেক বেশি পরিশীলিত। এখানে label পরিবর্তন না করেই attack পরিচালিত হয়। আক্রমণকারীরা feature space-এ এমন sample তৈরি করেন যেগুলো dataset-এর সাথে সামঞ্জস্যপূর্ণ মনে হয় কিন্তু গাণিতিকভাবে decision boundary-কে desired direction-এ ঠেলে দেয়। Manual inspection-এ এই sample-গুলো স্বাভাবিক মনে হয়।

Trigger-Based Backdoor Attack-এ আক্রমণকারী একটি বিশেষ pattern বা feature যোগ করেন যা trigger হিসেবে কাজ করে। BadNets একটি classic উদাহরণ যেখানে image-এর একটি ছোট অংশে নির্দিষ্ট pattern স্থাপন করলে মডেল ভুল prediction দেয়। সাম্প্রতিক গবেষণায় invisible trigger তৈরির কৌশলও প্রকাশিত হয়েছে যা human eye-এ অদৃশ্য কিন্তু মডেল তবুও সাড়া দেয়।

Federated Learning Poisoning একটি বিশেষ ক্ষেত্র। Federated Learning-এ multiple client একসাথে কাজ করে central model train করেন। একটি malicious client poisoned model update পাঠিয়ে global model-কে দূষিত করতে পারেন। Sybil Attack-এ আক্রমণকারী একাধিক client persona তৈরি করে আক্রমণ বাড়ান।

Online Learning Poisoning continuous learning system-কে লক্ষ্য করে। যেহেতু এই system real-time-এ নতুন data থেকে শেখে, আক্রমণকারীরা ক্রমাগত poisoned sample inject করতে পারেন। Microsoft-এর Tay chatbot ২০১৬ সালে এই ধরনের আক্রমণের শিকার হয়েছিল যেখানে ব্যবহারকারীরা ২৪ ঘণ্টায় bot-কে racist এবং offensive মন্তব্য করতে শিখিয়েছিল।

LLM Poisoning সাম্প্রতিক একটি গুরুত্বপূর্ণ ক্ষেত্র। বড় language model-গুলো প্রায়শই web থেকে scraped data-তে train করা হয়। আক্রমণকারীরা public website-এ ম্যালিশাস content স্থাপন করে future model training প্রভাবিত করতে পারেন। Anthropic এবং অন্যান্য গবেষকদের গবেষণা প্রকাশ করেছে যে অপেক্ষাকৃত ছোট pretraining poisoning ও মডেলে গুরুতর backdoor স্থাপন করতে পারে।

বাস্তব ঘটনা এবং গবেষণা

Microsoft Tay chatbot-এর ঘটনা ২০১৬ সালে AI security-এর জন্য একটি wake-up call ছিল। Twitter-এ চালু হওয়ার ২৪ ঘণ্টার মধ্যে coordinated trolling-এর মাধ্যমে chatbot এতটাই দূষিত হয়েছিল যে Microsoft এটি বন্ধ করতে বাধ্য হয়। এটি real-world online learning poisoning-এর একটি classic উদাহরণ।

Google-এর Gmail spam filter-এর বিরুদ্ধে গবেষকরা প্রদর্শন করেছেন যে strategic email submission-এর মাধ্যমে spam classifier-এর accuracy কমানো সম্ভব। এই গবেষণা বাণিজ্যিক anti-spam system-এর দুর্বলতা প্রকাশ করেছে।

Tesla-র Autopilot সিস্টেমে গবেষকরা প্রদর্শন করেছেন যে রাস্তায় ছোট sticker স্থাপন করে গাড়িকে ভুল lane-এ যেতে বাধ্য করা যায়। যদিও এটি evasion attack এর কাছাকাছি, একই নীতি training-time poisoning-এও প্রযোজ্য।

Anthropic-এর সাম্প্রতিক গবেষণায় "Sleeper Agent" model-এর কথা বলা হয়েছে যেখানে কৌশলগতভাবে inject করা backdoor inference time-এ trigger phrase-এ সক্রিয় হয়। এই ধরনের মডেল safety training-এর পরেও তাদের malicious behavior ধরে রাখতে পারে।

University of Maryland-এর গবেষকরা CIFAR-10-এর মতো benchmark dataset-এ মাত্র ০.০৫% পয়জনিং স্যাম্পল দিয়ে কার্যকর backdoor স্থাপন করা সম্ভব প্রদর্শন করেছেন। এটি প্রমাণ করে যে quality dataset-এও অল্প পরিমাণ poisoning গুরুতর ক্ষতি করতে পারে।

GitHub Copilot এবং অন্যান্য code generation মডেলের training data-তে ম্যালিশাস code injection-এর সম্ভাবনা নিয়ে গবেষকরা উদ্বেগ প্রকাশ করেছেন। যদি public code repository-তে subtle vulnerability inject করা যায় এবং model সেগুলো suggest করতে শেখে, লাখো ডেভেলপার unknowingly insecure code লিখতে পারেন।

শনাক্তকরণ এবং প্রতিরোধ

Data Poisoning শনাক্তকরণ চ্যালেঞ্জিং কিন্তু সম্ভব। প্রথমত, Data Sanitization-এ training data-এর pre-processing-এ outlier detection ব্যবহার করুন। Isolation Forest, Local Outlier Factor, Mahalanobis Distance-এর মতো statistical method poisoned sample চিহ্নিত করতে সাহায্য করে।

দ্বিতীয়ত, Activation Clustering training-এর সময় hidden layer-এর activation pattern বিশ্লেষণ করে backdoor sample শনাক্ত করে। Trojaned sample প্রায়শই legitimate sample থেকে আলাদা activation pattern প্রদর্শন করে।

তৃতীয়ত, Neural Cleanse এবং similar পদ্ধতি যা backdoor trigger reconstruction-এর চেষ্টা করে। যদি একটি ছোট perturbation দিয়ে multiple input-কে নির্দিষ্ট class-এ map করা যায়, এটি backdoor-এর উপস্থিতি নির্দেশ করে।

চতুর্থত, Differential Privacy training data থেকে individual sample-এর প্রভাব সীমিত করে। যদিও এটি accuracy-তে কিছু ক্ষতি করে, এটি membership inference এবং targeted poisoning-এর বিরুদ্ধে শক্তিশালী সুরক্ষা প্রদান করে।

পঞ্চমত, Federated Learning-এ Byzantine-Robust Aggregation ব্যবহার করুন। Krum, Trimmed Mean, Median Aggregation-এর মতো algorithm malicious client-এর প্রভাব সীমিত করে।

ষষ্ঠত, Data Provenance এবং Lineage Tracking বাস্তবায়ন করুন। প্রতিটি training sample কোথা থেকে এসেছে, কে যোগ করেছে, কখন যোগ হয়েছে - এই সব তথ্য audit trail-এ রাখুন। MLflow, DVC, Pachyderm-এর মতো MLOps tool এই কাজে সাহায্য করে।

সপ্তমত, Input Validation কঠোর করুন। User-submitted data যদি training-এ ব্যবহৃত হয়, তাহলে rigorous validation এবং filtering প্রয়োজন। Anti-spam-এর মতো পদ্ধতি malicious submission আগেই ফিল্টার করতে পারে।

অষ্টমত, Model Testing এবং Red Teaming পরিচালনা করুন। Adversarial example তৈরি করে মডেলের robustness পরীক্ষা করুন। CleverHans, Adversarial Robustness Toolbox-এর মতো library এই কাজে সাহায্য করে।

নবমত, Trusted Data Source-এ অগ্রাধিকার দিন। Public web data-এর পরিবর্তে curated এবং verified dataset ব্যবহার করুন যেখানে সম্ভব। Internal data collection-এ strict access control রাখুন।

দশমত, Continuous Monitoring বাস্তবায়ন করুন। Production-এ deployed model-এর performance metric এবং prediction pattern নিয়মিত পর্যবেক্ষণ করুন। Sudden change বা anomalous behavior data drift-এর পাশাপাশি poisoning-এরও সংকেত হতে পারে।

MLOps Pipeline-এ সুরক্ষা

আধুনিক MLOps pipeline-এ Data Poisoning-এর বিরুদ্ধে multiple layer-এ সুরক্ষা প্রয়োজন। Data Ingestion স্তরে strict validation এবং access control থাকতে হবে। Data Lake-এ encryption, audit logging এবং role-based access prevailing অপরিহার্য।

Data Pipeline-এ automated quality check প্রতিটি batch-এ চালান। Statistical drift detection, schema validation এবং data integrity check সম্পন্ন করুন। Great Expectations, Apache Griffin-এর মতো tool এই কাজে সাহায্য করে।

Training Phase-এ secure environment ব্যবহার করুন। Air-gapped training environment, signed code execution এবং reproducible build অপরিহার্য। Container security এবং supply chain integrity (SLSA framework) মেনে চলুন।

Model Validation-এর সময় security-specific test যোগ করুন। Backdoor detection, adversarial robustness, fairness evaluation-এর সাথে standard performance metric মূল্যায়ন করুন।

Model Deployment-এ canary release pattern ব্যবহার করুন। নতুন model first limited audience-এ deploy করুন এবং production behavior পর্যবেক্ষণ করে problem আগে শনাক্ত করুন।

Production Monitoring-এ model behavior continuous track করুন। Input distribution shift, prediction distribution change, এবং performance degradation-এর alert সেট করুন। Arize, Fiddler, WhyLabs-এর মতো ML observability platform এই কাজে কার্যকর।

নিয়ন্ত্রক প্রভাব

EU AI Act এবং অন্যান্য প্রবিধান AI system-এর নিরাপত্তা এবং নির্ভরযোগ্যতার ক্ষেত্রে নতুন প্রয়োজনীয়তা আরোপ করছে। High-risk AI system-এর জন্য risk management, data governance, এবং robustness testing বাধ্যতামূলক হচ্ছে।

NIST AI Risk Management Framework AI system-এর জন্য comprehensive risk approach প্রদান করে যেখানে Data Poisoning-এর মতো হুমকি অন্তর্ভুক্ত। ISO/IEC 27090 specifically AI security-এর জন্য emerging standard।

প্রতিষ্ঠানগুলোকে AI system-এর জন্য specific governance framework গড়ে তুলতে হবে। Model card, datasheet for dataset, এবং algorithmic impact assessment-এর মতো নথি প্রস্তুত করা উচিত।

Key Takeaways

Data Poisoning একটি বিপজ্জনক এবং দ্রুত-বিকাশমান হুমকি যা AI-চালিত সিস্টেমের মূল ভিত্তিকে আঘাত করে। যখন AI-এর উপর আমাদের নির্ভরতা বাড়ছে - স্বাস্থ্যসেবা, পরিবহন, আর্থিক সেবা এবং সাইবার নিরাপত্তা সর্বত্র - এই হুমকির বিরুদ্ধে কার্যকর প্রতিরক্ষা গড়ে তোলা অত্যাবশ্যক। শুধু প্রযুক্তিগত সমাধান নয়, একটি সামগ্রিক MLOps security culture প্রয়োজন যা data lineage, model validation, monitoring এবং governance-এর সমন্বয় করে। AI security একটি ধারাবাহিক চ্যালেঞ্জ - আক্রমণকারীরা প্রতিনিয়ত নতুন কৌশল উদ্ভাবন করছেন এবং প্রতিরক্ষাকেও সমানভাবে বিবর্তিত হতে হবে। সংস্থাগুলোকে বুঝতে হবে যে একটি দূষিত AI model একটি দুর্বল AI model-এর চেয়েও বিপজ্জনক, কারণ এটি বিশ্বাসযোগ্য মনে হয় কিন্তু মৌলিকভাবে আপস করা।

আপনার জ্ঞান যাচাই করতে প্রস্তুত? আজই HackCert-এ Data Poisoning MCQ Quiz-টি দিন!

Related articles

back to all articles