Advanced 9 min read May 25, 2026

Adversarial ML: মেশিন লার্নিং মডেলকে বিভ্রান্ত করে সাইবার আক্রমণ!

Adversarial Machine Learning কীভাবে AI মডেলকে প্রতারিত করে? জানুন evasion, poisoning ও model extraction-এর বাস্তব আক্রমণ ও প্রতিরোধ।

Fatima Zahra Begum

AI Security Researcher

Adversarial ML: মেশিন লার্নিং মডেলকে বিভ্রান্ত করে সাইবার আক্রমণ!

Overview

মেশিন লার্নিং মডেল আজ ব্যাংকিং fraud detection, malware classification, medical diagnosis, autonomous vehicle এবং নিরাপত্তা ক্যামেরা—সর্বত্র সিদ্ধান্ত নিচ্ছে। এই মডেলগুলোর কর্তৃত্ব যত বাড়ছে, ততই প্রবলভাবে উঠে আসছে একটি প্রশ্ন—মডেলগুলো নিজেরাই কি নিরাপদ? Adversarial Machine Learning (Adversarial ML) ঠিক এই প্রশ্নের উত্তর অনুসন্ধান করে। এটি গবেষণা ও প্রয়োগের এমন একটি ক্ষেত্র যেখানে মডেলকে বিভ্রান্ত করার, বিকৃত করার বা চুরি করার কৌশল উন্মোচিত হয়। সাইবার নিরাপত্তার নতুন এই ফ্রন্টে দুর্বল মডেল মানেই দুর্বল প্রতিষ্ঠান।

Adversarial ML-এর মৌলিক ধারণা

Adversarial ML-এ আক্রমণকারী এমন ইনপুট তৈরি করেন যা মানুষের চোখে স্বাভাবিক, কিন্তু মেশিন লার্নিং মডেলকে ভুল সিদ্ধান্তে প্ররোচিত করে। এর ভিত্তি হলো এই উপলব্ধি যে অধিকাংশ neural network high-dimensional space-এ এমন decision boundary তৈরি করে যেগুলো খুব ভঙ্গুর—সামান্য, calibrated noise যোগ করলেই input অন্য class-এ "চলে যায়"।

২০১৪ সালে Goodfellow et al.-এর "Explaining and Harnessing Adversarial Examples" পেপারে দেখানো হয়েছিল যে একটি panda-র ছবিতে মানুষের কাছে অদৃশ্য pixel-স্তরের noise যোগ করে মডেলকে সেটি "gibbon" হিসেবে শ্রেণীবদ্ধ করতে বাধ্য করা যায়—তাও ৯৯% confidence-এ। এই demonstration Adversarial ML-কে গবেষণার একটি স্বতন্ত্র শাখা হিসেবে প্রতিষ্ঠিত করে।

Adversarial আক্রমণ কয়েকটি মাত্রায় শ্রেণীবদ্ধ করা যায়—white-box (আক্রমণকারীর মডেলের আর্কিটেকচার ও weight সম্পর্কে সম্পূর্ণ জ্ঞান আছে) বনাম black-box (শুধু API access আছে), targeted (নির্দিষ্ট ভুল class-এ যেতে চান) বনাম untargeted (যেকোনো ভুল class-ই চলবে), এবং evasion বনাম poisoning বনাম extraction।

প্রধান আক্রমণ ক্যাটাগরি

Adversarial ML-এ আক্রমণ মূলত চারটি বড় বিভাগে পড়ে।

Evasion Attack: মডেল deploy হওয়ার পর inference time-এ ম্যানিপুলেট করা ইনপুট দিয়ে ভুল prediction পাওয়া। উদাহরণ—একটি malware binary-তে সামান্য byte পরিবর্তন করে antivirus model-কে এটি benign মনে করতে বাধ্য করা; একটি stop sign-এ কিছু sticker লাগিয়ে autonomous car-কে এটি "Speed Limit 45" সাইন বুঝতে বাধ্য করা। জনপ্রিয় algorithm—FGSM (Fast Gradient Sign Method), PGD (Projected Gradient Descent), Carlini-Wagner attack।

Poisoning Attack: Training time-এ ম্যালিশিয়াস ডেটা ইনজেক্ট করে মডেলের আচরণ পরিবর্তন করা। উদাহরণ—একটি spam classifier-এর training set-এ বহু সংখ্যক spam email-কে "ham" হিসেবে label করে পাঠানো, যাতে মডেল ভবিষ্যতে spam মিস করে। আরো উন্নত রূপ হলো backdoor attack বা Trojan attack, যেখানে মডেলে একটি specific trigger pattern রেখে দেওয়া হয়—সাধারণ ইনপুটে মডেল সঠিকভাবে কাজ করে, কিন্তু trigger উপস্থিত হলে আক্রমণকারীর ইচ্ছামতো prediction দেয়।

Model Extraction (Stealing): Black-box API-তে বহু query পাঠিয়ে মডেলের আচরণ অনুকরণকারী একটি duplicate মডেল তৈরি করা। এটি বুদ্ধিবৃত্তিক সম্পত্তির চুরি ছাড়াও পরবর্তী আক্রমণের ভিত্তি হিসেবে কাজ করতে পারে—কারণ stolen মডেলে white-box attack চালিয়ে adversarial example তৈরি করে আসল মডেলে transfer করা যায়।

Membership Inference এবং Model Inversion: আক্রমণকারী query করে নির্ধারণ করেন একটি নির্দিষ্ট data point মডেলের training set-এ ছিল কি না (membership inference), অথবা মডেলের output থেকে training data পুনর্গঠন করেন (model inversion)। এটি গুরুতর privacy লঙ্ঘন—যেমন একটি medical AI মডেল থেকে নির্দিষ্ট রোগীর তথ্য বের করা।

বাস্তব উদাহরণ

Microsoft-এর Tay চ্যাটবট (২০১৬) ছিল সম্ভবত সবচেয়ে আলোচিত adversarial ML ব্যর্থতা—Twitter user-রা ক্রমাগত harmful content পাঠিয়ে মডেলকে কয়েক ঘণ্টার মধ্যে racist বানিয়ে ফেলেছিল, যা একধরনের real-time poisoning।

স্বচালিত গাড়ি ক্ষেত্রে গবেষকরা দেখিয়েছেন যে stop sign-এ মাত্র চারটি rectangular sticker দিয়ে state-of-the-art object detector-কে ৮৪% ক্ষেত্রে ভুল সিদ্ধান্তে নিয়ে যাওয়া সম্ভব। মুখ চেনার সিস্টেমেও বিশেষভাবে ডিজাইন করা চশমা পরে মানুষ অন্য ব্যক্তির হিসেবে শনাক্ত হতে পেরেছে।

Malware ক্ষেত্রে গবেষণায় দেখা গেছে যে কয়েক বাইটের padding বা irrelevant API call যোগ করে বহু ML-ভিত্তিক EDR-কে bypass করা সম্ভব। বাস্তব APT গোষ্ঠীগুলোও এই কৌশল রপ্ত করছে।

Large Language Model-এর যুগে এসেছে নতুন আক্রমণ—prompt injection, jailbreak এবং data exfiltration—যেগুলোকে MITRE ATLAS ফ্রেমওয়ার্ক formal-ভাবে catalog করছে।

প্রতিরোধ ও প্রতিকার

Adversarial ML আক্রমণ প্রতিরোধে কোনো একটিমাত্র সমাধান নেই; প্রয়োজন বহু-স্তরীয় defense।

Adversarial Training: Training set-এ adversarial example যোগ করে মডেলকে আরো robust করা। PGD-based adversarial training বর্তমানে evasion attack-এর বিরুদ্ধে সবচেয়ে কার্যকর পরিচিত defense। তবে এর computational cost অনেক বেশি এবং সব attack-এর বিরুদ্ধে সমানভাবে কাজ করে না।

Input Preprocessing: Input-এ feature squeezing, image quantization বা random transformation প্রয়োগ করে adversarial noise-এর প্রভাব কমানো। তবে adaptive attacker এগুলো বাইপাস করতে পারে।

Defensive Distillation এবং Gradient Masking: মডেলের gradient signal লুকিয়ে আক্রমণকারীর কাজ কঠিন করা—যদিও এটি একটি obscurity-based defense এবং সম্পূর্ণ নিরাপদ নয়।

Certified Defenses: Randomized smoothing-এর মতো কৌশল ব্যবহার করে গাণিতিকভাবে provable robustness নিশ্চিত করা একটি নির্দিষ্ট perturbation budget-এর মধ্যে।

Anomaly Detection on Inputs: Distribution-shifted বা out-of-distribution input শনাক্ত করতে statistical detector ব্যবহার করা। Adversarial example প্রায়ই natural data distribution থেকে subtly আলাদা।

Data Provenance এবং Training Integrity: Poisoning থেকে রক্ষা পেতে training data-র উৎস যাচাই করা, sample-wise integrity check, এবং anomalous label-এর জন্য audit চালানো। Differential privacy-ও poisoning-এর প্রভাব কমাতে সাহায্য করে।

Query Rate Limiting এবং Output Watermarking: Model extraction প্রতিরোধে API rate limit, query pattern detection এবং output-এ subtle watermark যোগ করা।

Differential Privacy: Training process-এ noise যোগ করে membership inference এবং model inversion আক্রমণের বিরুদ্ধে privacy guarantee নিশ্চিত করা।

MLOps Security Integration: ML pipeline-এর প্রতিটি পর্যায়—data collection, training, model registry, deployment—এ security control যোগ করা। MLBOM (ML Bill of Materials) maintain করা, এবং model signing ব্যবহার করে integrity নিশ্চিত করা।

MITRE ATLAS Framework অনুসরণ: Adversarial ML-এর tactics এবং techniques-এর জন্য MITRE ATLAS একটি systematic ফ্রেমওয়ার্ক প্রদান করে। প্রতিষ্ঠানের red team এবং blue team-এর এই ফ্রেমওয়ার্ক অনুযায়ী assessment চালানো উচিত।

Continuous Red Teaming: AI মডেলের বিরুদ্ধে নিয়মিত adversarial test চালানো এবং সেই ফলাফল mitigation pipeline-এ ফিড করা।

Key Takeaways

Adversarial ML সাইবার নিরাপত্তার একটি দ্রুত-বিকাশমান এবং কৌশলগতভাবে গুরুত্বপূর্ণ ক্ষেত্র। যেহেতু প্রতিষ্ঠানগুলো ক্রমশ ML-নির্ভর সিদ্ধান্ত গ্রহণে যাচ্ছে, ততই বাড়ছে এই মডেলগুলোর বিরুদ্ধে আক্রমণের সম্ভাবনা ও ক্ষতির পরিমাণ। ঐতিহ্যবাহী সাইবার নিরাপত্তা শুধু infrastructure-কে রক্ষা করত; AI-যুগে সেটি যথেষ্ট নয়। আমাদের রক্ষা করতে হবে মডেলগুলোকেও—তাদের ইনপুট, training data, পরামিতি এবং আউটপুট—সবই। যে প্রতিষ্ঠান আজ Adversarial ML defense-এ বিনিয়োগ করছে, তারাই আগামী দশকে AI-চালিত ব্যবসায়িক জগতে নিরাপদভাবে নেতৃত্ব দিতে পারবে।

আপনার জ্ঞান যাচাই করতে প্রস্তুত? আজই HackCert-এ Adversarial ML MCQ Quiz-টি দিন!

// tags#Adversarial ML #AI Security #Machine Learning #Advanced

AI RED Teaming: Modern Strategies for Validating the Security of AI Models

10 min

Prompt Injection: Tricking LLMs into Executing Unintended Outputs

8 min

Advanced Tactics in AI Red Teaming

10 min

Deep Dive into Prompt Injection Attacks

10 min

back to all articles

Adversarial ML-এর মৌলিক ধারণা

প্রধান আক্রমণ ক্যাটাগরি

বাস্তব উদাহরণ

প্রতিরোধ ও প্রতিকার

Related articles