Disaster Recovery: বড় ধরনের সাইবার হামলার পর আইটি ইনফ্রাস্ট্রাকচার পুনরুদ্ধারের গাইড!
Disaster Recovery planning, business continuity এবং সাইবার হামলার পর IT infrastructure পুনরুদ্ধারের বিস্তারিত কৌশল।
সকাল ৭টায় Operations Manager-এর ফোনে একটি জরুরি call। রাতে ransomware আক্রমণে কোম্পানির সমস্ত production server encrypted। Email বন্ধ, ERP কাজ করছে না, customer-facing application down, এমনকি phone system পর্যন্ত আক্রান্ত। মুক্তিপণের note বলছে— $৫ মিলিয়ন না দিলে data leak করে দেওয়া হবে। CEO প্রশ্ন করছেন— "আমাদের কত সময় লাগবে recover করতে?" এই মুহূর্তে যদি একটি ভালোভাবে পরীক্ষিত Disaster Recovery Plan থাকে, উত্তরটা হতে পারে "৪৮ ঘণ্টার মধ্যে আমরা production-এ ফিরব।" যদি না থাকে, উত্তরটা হতে পারে— "জানি না।"
Disaster Recovery আজকের ব্যবসায়িক বাস্তবতায় একটি অপরিহার্য discipline। শুধু সাইবার হামলা নয়— প্রাকৃতিক দুর্যোগ, hardware failure, human error, supply chain disruption— যেকোনো কিছুই IT operation থামিয়ে দিতে পারে। এই নিবন্ধে আমরা Disaster Recovery-এর মৌলিক ধারণা, planning framework, technical implementation এবং বাস্তব testing strategy বিশদভাবে আলোচনা করব।
মূল ধারণা
Disaster Recovery (DR) হলো সেই process, policy এবং procedure-এর collection যা একটি disaster-এর পর critical IT system পুনরুদ্ধারের জন্য designed। এটি Business Continuity (BC)-এর একটি subset— Business Continuity-তে পুরো organization-এর continued operation নিয়ে চিন্তা করা হয় (people, process, technology, facility), যেখানে DR specifically IT infrastructure-এর ওপর focus।
কিছু fundamental term:
Recovery Time Objective বা RTO— disaster-এর পর কত সময়ের মধ্যে system পুনরুদ্ধার হবে। যদি একটি critical e-commerce platform-এর RTO ৪ ঘণ্টা হয়, তাহলে disaster-এর ৪ ঘণ্টার মধ্যে সেটা operational থাকতে হবে।
Recovery Point Objective বা RPO— কত data loss acceptable। যদি RPO ১ ঘণ্টা হয়, তাহলে সর্বশেষ backup এবং disaster-এর মধ্যে ১ ঘণ্টার বেশি data loss হওয়া উচিত নয়।
Maximum Tolerable Downtime বা MTD— business সর্বোচ্চ যত সময় downtime সহ্য করতে পারে। MTD-এর বেশি downtime হলে business permanent ক্ষতির মুখোমুখি হয়।
Recovery Time Actual (RTA) এবং Recovery Point Actual (RPA)— প্রকৃত performance, যা testing-এ মাপা যায়।
Business Impact Analysis বা BIA— DR planning-এর foundation। প্রতিটি business function এবং তার underlying IT system-এর criticality assess। Financial impact, regulatory impact, reputational impact, এবং operational impact— প্রতিটি dimension-এ। এই analysis থেকে priority list তৈরি— কোন system আগে recover হবে।
DR Strategy এবং Tier
বিভিন্ন business function-এর জন্য বিভিন্ন DR strategy। Cost এবং recovery speed-এর trade-off:
Cold Site— সবচেয়ে cheap option। শুধুমাত্র basic facility (power, cooling, network connectivity) থাকে; hardware এবং data disaster-এর সময় deploy করতে হয়। RTO সাধারণত কয়েক দিন থেকে সপ্তাহ। Non-critical system-এর জন্য suitable।
Warm Site— pre-configured hardware থাকে, কিন্তু up-to-date data নেই। Disaster-এর সময় recent backup restore করে operational করা হয়। RTO কয়েক ঘণ্টা থেকে দিন।
Hot Site— full mirror of production। Real-time বা near-real-time data replication। Failover-এর সময় কয়েক মিনিটে operational। সবচেয়ে expensive কিন্তু critical system-এর জন্য essential।
Cloud-based DR— modern hybrid approach। AWS Disaster Recovery, Azure Site Recovery, Google Cloud DR— এই service-এর সাথে on-premise primary এবং cloud-based DR site। Cost-effective এবং scalable।
Active-Active— দুই বা ততোধিক site একসাথে production traffic handle করে। কোনো একটি fail করলে অন্য site automatically full load নেয়। সর্বাধুনিক এবং complex strategy।
বিভিন্ন business function-এর জন্য বিভিন্ন tier। Email এবং core banking— hot site বা active-active। Internal documentation এবং less-used system— warm site বা cloud-based। Archival data— cold site।
Backup Strategy: 3-2-1-1-0
Disaster Recovery-এর core building block হলো backup। 3-2-1 rule classical— তিনটি কপি, দুটি ভিন্ন মাধ্যমে, একটি offsite। কিন্তু modern ransomware-এর যুগে এটি 3-2-1-1-0 rule-এ extend হয়েছে:
3 copies of data— production plus minimum two backup।
2 different media— disk এবং tape, বা disk এবং cloud।
1 offsite— ভৌগোলিকভাবে আলাদা location-এ।
1 immutable বা air-gapped— এমন copy যা ransomware tamper করতে পারে না। AWS S3 Object Lock, Azure Immutable Blob, tape vault, বা specialized backup appliance।
0 backup errors— verification successful, restore tested।
Backup-এর frequency RPO-এর ওপর নির্ভর। Critical database-এর জন্য continuous replication বা transaction log shipping। File server-এর জন্য hourly snapshot। Less critical system-এর জন্য daily।
Backup retention policy careful design করতে হবে। Recent backup-এর জন্য short-term retention, এবং long-term archival-এর জন্য monthly/yearly retention। Compliance requirement— SOX, HIPAA, GDPR-এর কথা মাথায় রেখে retention period।
Backup encryption— at-rest এবং in-transit— sensitive data protection-এর জন্য অপরিহার্য। Key management নিজে সমান গুরুত্বপূর্ণ— যদি encryption key হারিয়ে যায়, backup useless।
Backup Verification— শুধু backup নিলে যথেষ্ট নয়; restore সম্ভব কিনা যাচাই করতে হবে। Schrödinger's Backup principle: "the condition of any backup is unknown until a restore is attempted।" Automated restore testing, integrity check, এবং periodic full restore drill।
DR Plan-এর Component
একটি complete DR Plan-এ অনেক component:
Roles and Responsibilities— disaster-এর সময় কে কী করবে। Incident Commander, Technical Lead, Communications Lead, Business Liaison— প্রতিটি role-এর জন্য primary এবং backup person।
Activation Criteria— কখন DR plan activate হবে। সব disruption disaster নয়; criteria spell out করতে হবে।
Communication Plan— internal এবং external communication। Employee, customer, regulator, media-কে কীভাবে inform। Out-of-band communication channel— যদি email আক্রান্ত হয়।
Recovery Procedures— step-by-step technical instruction প্রতিটি system-এর জন্য। Documented runbook, যা stress-এর মধ্যেও follow করা যায়।
Resource Inventory— hardware, software license, vendor contact, contract।
Vendor Contact List— ISP, cloud provider, hardware vendor, software vendor, insurance, legal counsel।
Recovery Site Details— DR location, access procedure, network configuration।
Testing Schedule— কখন এবং কীভাবে plan test হবে।
Post-Recovery Procedure— production-এ ফিরে যাওয়ার process।
Cyber-Specific DR Consideration
Cyber attack— বিশেষ করে ransomware— traditional disaster থেকে কিছু আলাদা ব্যবস্থাপনা চায়।
Forensic Preservation। Recovery-এর আগে evidence preserve। কী attack ছিল, attacker কীভাবে ঢুকেছিল, কী compromise হয়েছিল— এই information ছাড়া পুনরায় same attack-এর শিকার হওয়া সম্ভব। Forensic image নেওয়া, log preserve।
Backup Integrity। Ransomware প্রায়ই backup target করে। Restore-এর আগে নিশ্চিত হতে হবে backup unaffected। Air-gapped বা immutable backup এই reason-এ গুরুত্বপূর্ণ।
Patient Zero Investigation। কোন endpoint বা account থেকে initial compromise— এটি না জেনে recover করলে attacker পুনরায় বসে যাবে।
Credential Reset। সব credential— user password, service account, API key, certificate— rotate। Active Directory-এর golden ticket prevention-এ krbtgt password twice reset (kerberos protocol requirement)।
Network Segmentation। Recovered system production-এ ফেরার আগে clean network segment-এ। Gradual reconnection।
Decision on Ransom। Ransomware-এ ransom pay করা vs না করার সিদ্ধান্ত। FBI এবং অনেক regulator pay না করার পরামর্শ দেন। কিন্তু practical reality-তে অনেক organization— বিশেষ করে যাদের ব্যাকআপ ব্যর্থ— pay করে। Legal counsel, insurance, এবং law enforcement-এর সাথে coordination।
Notification Obligation। অনেক jurisdiction-এ data breach notification বাধ্যতামূলক— GDPR-এ ৭২ ঘণ্টা, কিছু US state-এ ৩০ দিন, ইত্যাদি। Customer, regulator, board, এবং কখনো public-কে inform।
DR Testing
DR plan যা testing হয়নি, সেটা cancel-এর কাছাকাছি অর্থহীন। Testing methodology বিভিন্ন স্তরে:
Plan Review— প্রতি বছর plan document-এর review এবং update।
Tabletop Exercise— stakeholder একসাথে বসে একটি hypothetical disaster scenario discuss। কী করবেন, কে কী করবেন, কোন gap আছে। কম-cost, কম-disruption।
Walkthrough— step-by-step plan execute করার simulation, কিন্তু actual system touch না করে।
Simulation Test— controlled environment-এ actual DR procedure-এর কিছু অংশ execute। যেমন backup থেকে restore test, DR site-এ একটি system spin up।
Full Interruption Test— সবচেয়ে rigorous। Actual production cutover DR site-এ। শুধু critical system-এর জন্য, এবং organization যথেষ্ট mature হলে।
Chaos Engineering— Netflix-এর Chaos Monkey-র মতো tool randomly production component fail করে। System-এর resilience continuously test।
Test-এর findings document, এবং improvement implement করতে হবে। Test-after-action review এবং plan update— iterative cycle।
Cloud DR এবং Modern Approach
Cloud computing DR-এ revolution এনেছে। Pre-cloud era-তে DR site মানে significant capital expense— hardware কিনতে হতো, facility lease দিতে হতো, software license-এর জন্য পেমেন্ট। বেশিরভাগ মধ্যম প্রতিষ্ঠানের জন্য hot site economically impractical ছিল।
Cloud DR এই dynamic পরিবর্তন করেছে। Pilot Light approach— DR site-এ minimum running resource, disaster-এর সময় scale up। AWS-এ AMI ready, RDS standby, Route 53 health check।
Warm Standby— more resource running continuously, কিন্তু production-এর scale-এ না। Failover দ্রুত।
Multi-Site Active-Active— cloud-native approach। Multiple region-এ deployment, traffic distribution, automatic failover।
Backup and Restore in Cloud— S3-এর Cross-Region Replication, Azure Backup-এর geo-redundancy।
DRaaS (Disaster Recovery as a Service)— managed service যেখানে provider পুরো DR responsibility নেয়। Zerto, Veeam, Druva-এর মতো vendor।
Infrastructure as Code (IaC)— Terraform, CloudFormation, Pulumi। Entire infrastructure code হিসেবে; DR site-এ deploy minutes-এ। Documentation এবং recovery procedure এক একসাথে।
Immutable Infrastructure— traditional server "pet" নয়, "cattle"। Compromised host repair-এর পরিবর্তে replace। Container এবং Kubernetes এই philosophy-র natural fit।
Common Pitfall
DR planning-এ কিছু common mistake:
Incomplete BIA। সব system-কে "critical" tag করা— তাহলে কেউই truly critical নয়। কঠোর prioritization প্রয়োজন।
Documentation-only। Plan আছে কিন্তু কেউ পড়েনি, কেউ test করেনি, কেউ rehearse করেনি। Disaster-এর moment-এ panic।
Outdated Plan। System এবং business change করেছে; plan update হয়নি।
Untested Backup। Backup নেওয়া হচ্ছে কিন্তু restore test হয়নি। ১০০ শতাংশ ক্ষেত্রে failure expose হবে wrong moment-এ।
Single Point of Failure। DR plan-এ নিজস্ব দুর্বলতা— একটি specific person, একটি specific tool, একটি specific link। Plan-ই disaster-এর কাছে fail।
Inadequate Cyber Consideration। Traditional DR plan natural disaster-এর কথা ভেবে designed, ransomware-এর কথা না। Backup-ই encrypted হয়ে গেলে কী?
Compliance এবং Standard
DR planning-এ আইনি এবং নিয়ন্ত্রক framework। ISO 22301— Business Continuity Management-এর international standard। NIST SP 800-34— US government-এর DR planning guideline।
Industry-specific: SOX (financial reporting integrity), HIPAA (healthcare data), PCI DSS (payment card), GDPR (EU data protection)— প্রতিটি-তে DR-related requirement।
Insurance-এও DR plan ক্রমেই important হয়ে উঠছে। Cyber insurance policy-তে adequate DR এবং backup প্রায়শই requirement।
Disaster Recovery কোনো IT department-এর exclusive responsibility নয়— এটি business-wide concern। যখন আক্রমণ আসবে— এবং আজকের যুগে "যদি" নয়, "কখন"— তখন একটি well-designed, well-tested DR plan-এর মূল্য কোটি টাকার সমান। প্রতিটি প্রতিষ্ঠানের জন্য DR planning একটি ongoing process, এক-বারের project নয়।
প্রস্তুতি দু’টি বিভাগে— আজকেই কী করবেন, এবং dis disaster-এর সময় কী করবেন। আজকেই backup verify করুন, RTO-RPO confirm করুন, DR plan document update করুন, একটি tabletop exercise schedule করুন। Disaster-এর সময় calm থাকুন, plan follow করুন, communication-এ স্পষ্ট থাকুন, এবং documented procedure-এ trust রাখুন। যে প্রতিষ্ঠানগুলো প্রস্তুত, তারা ২৪-৪৮ ঘণ্টার মধ্যে operations ফিরে পায়। যে প্রতিষ্ঠানগুলো প্রস্তুত নয়, তাদের অনেকেই আর কখনো ফিরে আসে না। Disaster Recovery পরিচয় করিয়ে দেয় cyber resilience কী— এবং সেটাই আধুনিক ব্যবসার সবচেয়ে মূল্যবান asset।
আপনার জ্ঞান যাচাই করতে প্রস্তুত? আজই HackCert-এ Disaster Recovery MCQ Quiz-টি দিন!
Related articles
Foundations of Disaster Recovery and BCP
9 min
Asset Management: Accounting and Security Monitoring of All Devices in a Corporate Network
8 min
Biometric Security: How Cyber-Proof are Fingerprint and Face Unlock Systems?
10 min
Blue Teaming: The Role of the Defensive Security Team in Thwarting Cyber Attacks
10 min

