Multi-Cloud Disaster Recovery Labs

Advanced DR Labs - Module 9

Master disaster recovery with real-world cloud console interfaces and comprehensive configuration options.

Lab 26: Azure Site Recovery Implementation

Azure / Expert

Scenario: Enterprise Azure DR with Site Recovery

TechCorp Enterprise runs mission-critical applications on Azure VMs processing $100M annual revenue. Configure Azure Site Recovery (ASR) for automated VM replication from East US to West US 2, implement Recovery Plans with sequenced failover, configure Network Security Groups for DR network, and ensure RPO < 5 minutes and RTO < 30 minutes with automated runbooks.

Learning Objectives:

Azure Site Recovery: Configure ASR vault and replication
Recovery Plans: Build multi-tier application recovery sequences
Network Configuration: Set up DR network topology
Automation: Create Azure Automation runbooks for failover
Testing: Execute DR drills without impacting production

Detailed Step-by-Step Instructions

Create Recovery Services Vault in Primary Region

The Recovery Services vault is the central repository for all backup and replication data. You must create this in the PRIMARY region (where your VMs currently run).

In Azure Portal (right panel):
1. In the "Resource Group" dropdown Select "RG-Production-EastUS"
2. In "Vault Name" field Type: ASR-Vault-EastUS-Primary
3. In "Region" dropdown Select "East US"
4. Check the box: "Enable Cross Region Restore"
5. Click the blue "Create Vault" button at bottom

Why Primary Region? The vault coordinates replication FROM this region TO the DR region. Think of it as the "control center" for your DR operations.
Configure Replication for Production VMs

Enable replication for each production VM. ASR will create a replica in the target region and continuously sync changes with <5 minute RPO.

Step-by-step clicks:
1. Click the "Replication" tab in the left navigation
2. Click "+ Enable Replication" button (top left)
3. Source VMs section:
Check boxes for: "web-vm-01", "app-vm-01", "db-vm-01"
4. Target Location dropdown Select "West US 2"
5. Target Resource Group Select "RG-DR-WestUS2" (or click "Create New")
6. Replication Policy dropdown Select "24-hour-retention"
7. Recovery Point Objective Keep default "5 minutes"
8. Click "Enable Replication" button

Initial Sync Time: First-time replication takes 2-4 hours depending on VM size. Subsequent syncs are delta-based (only changes) and happen every 5 minutes.
Configure DR Network Topology

Set up the network configuration VMs will use after failover. This includes VNets, subnets, NSGs, and load balancers in the DR region.

Network Configuration:
1. Click "Network Mapping" tab
2. Click "+ Add Network Mapping"
3. Source VNet Select "VNet-EastUS-Prod"
4. Target VNet Select "VNet-WestUS2-DR" (if not exists, click "Create")
5. For each VM, configure:
   • web-vm-01 Subnet: "public-subnet" IP: Dynamic
   • app-vm-01 Subnet: "app-subnet" IP: Dynamic
   • db-vm-01 Subnet: "data-subnet" IP: Static (preserve IP)
6. Configure NSG Attach "NSG-DR-WestUS2"
7. Click "Save Mapping"

IP Strategy: Web/App tiers use dynamic IPs (can change on failover). Database uses static IP to avoid connection string changes in application code.
Create Recovery Plan with Sequenced Failover

Recovery Plans define the ORDER in which VMs failover. Critical for multi-tier apps: Database must start BEFORE app servers, app servers BEFORE web servers.

Building Recovery Plan:
1. Click "Recovery Plans" tab Click "+ Recovery Plan"
2. Name field Type: Production-App-Failover
3. Source "East US" | Target "West US 2"
4. Select VMs Add all 3 VMs
5. Configure Boot Order (CRITICAL!):
   Group 1 (Database Tier): db-vm-01 Priority 1
   Group 2 (App Tier): app-vm-01 Priority 2 Wait 5 min after Group 1
   Group 3 (Web Tier): web-vm-01 Priority 3 Wait 3 min after Group 2
6. Add Pre-failover Script Select "Update-DNS-Records" runbook
7. Add Post-failover Script Select "Health-Check-Validation" runbook
8. Click "Create"

Common Mistake: Failing over all VMs simultaneously causes app errors because web servers try to connect to database before it's ready. Always use sequenced groups!
Configure Azure Automation for Failover

Create automation runbooks that execute before/after failover to update DNS, load balancers, and validate application health.

Automation Setup:
1. Click "Automation" tab
2. Select Automation Account "ASR-Automation-Account"
3. Pre-Failover Runbook Configuration:
    Name: "Pre-Failover-Tasks"
    Action: "Update Azure Traffic Manager to DR region"
    Action: "Snapshot current database state"
    Action: "Send notification to ops team"
4. Post-Failover Runbook Configuration:
    Name: "Post-Failover-Validation"
    Action: "Verify all VMs are running"
    Action: "Test application endpoints (HTTP 200)"
    Action: "Update monitoring dashboards"
    Action: "Generate DR drill report"
5. Click "Save Runbooks"
Execute Configure DR Drill (Non-Disruptive)

Test failover creates isolated VMs in DR region WITHOUT affecting production. This validates your DR plan works before a real disaster.

Running Configure DR Drill:
1. Navigate to Recovery Plans Select "Production-App-Failover"
2. Click "Configure DR Drill" button (NOT "Failover"!)
3. Recovery Point Select "Latest (lowest RPO)"
4. Test Network Select "VNet-WestUS2-Test" (isolated network)
5. Check box: "Create separate test VMs"
6. Check box: "Run post-failover scripts"
7. Click "OK" to start test
8. Monitor progress: Database App Web servers boot in sequence
9. After complete: Click "Cleanup Configure DR Drill" to delete test VMs

Best Practice: Run test failover MONTHLY. Azure Site Recovery allows this without impacting production - there's no excuse not to test regularly!
Configure Monitoring and Alerts

Set up comprehensive monitoring to track replication health, lag, and get alerted to any issues before they become critical.

Monitoring Configuration:
1. Click "Monitoring" tab
2. Enable Metrics:
   ✓ Replication Health
   ✓ RPO Breach (alert if >5 minutes)
   ✓ Configure DR Drill Success Rate
   ✓ Replication Data Transfer Rate
3. Configure Alerts:
    Alert: "Critical - Replication Health Unhealthy"
    Severity: Critical Action Group: "DR-Ops-Team"
    Alert: "Warning - RPO > 10 minutes"
    Severity: Warning Email + SMS
4. Enable Azure Monitor integration
5. Create dashboard with all DR metrics
6. Click "Save Monitoring Config"

Pro Tip: Integrate alerts with PagerDuty or OpsGenie for 24/7 on-call coverage. DR issues can't wait until business hours!

Azure Portal - Site Recovery Configuration

Recovery Vault

Replication

Network Mapping

Recovery Plans

Monitoring

Basics

Subscription

The subscription to use for this resource

Resource group

Group related resources together

Vault name

Must be unique within the resource group

Region

Primary region where your VMs are located

Enable Cross Region Restore

Allows restore to a paired region for enhanced DR

Source Virtual Machines

Select VMs to Replicate

web-vm-01 (Standard_D4s_v3) - Running app-vm-01 (Standard_D4s_v3) - Running db-vm-01 (Standard_E4s_v3) - Running

Target Location

Secondary region for disaster recovery

Target Resource Group

Resource group in target region

Replication Policy

Recovery point retention and app-consistent snapshot frequency

Recovery Point Objective (RPO)

Minimum RPO supported by Azure Site Recovery

VNet Mapping

Source VNet

Target VNet

Subnet Mappings

• web-vm-01 → public-subnet (Dynamic IP)

• app-vm-01 → app-subnet (Dynamic IP)

• db-vm-01 → data-subnet (Static IP - preserve)

Recovery Plan Details

Plan Name

Boot Order

Group 1: db-vm-01 (Priority 1)

Group 2: app-vm-01 (Wait 5 min after Group 1)

Group 3: web-vm-01 (Wait 3 min after Group 2)

Monitoring Metrics

Enable Metrics

Replication Health RPO Breach Alerts (> 5 minutes) Test Failover Success Rate

Progress: 0/7 tasks completed

Score: 0/100

Lab 26 Complete!

Excellent Azure Site Recovery implementation!

Lab 27: GCP Multi-Region Disaster Recovery

GCP / Expert

Scenario: Global GCP DR with Cloud SQL and GKE

GlobalMedia streams video content to 50M users worldwide. Design and implement a multi-region DR solution on GCP with Cloud SQL cross-region replication, GKE cluster failover, Cloud CDN configuration, and Global Load Balancing. Achieve RPO < 1 minute for databases, RTO < 20 minutes for full stack, and ensure zero data loss during regional failures.

Learning Objectives:

Cloud SQL HA: Configure cross-region replicas with automated promotion
GKE Multi-Region: Deploy GKE clusters in multiple regions
Global Load Balancing: Configure GCLB with health checks
Cloud Storage Replication: Set up multi-region buckets
Disaster Recovery Testing: Execute automated DR drills

Detailed GCP DR Instructions

Configure Cloud SQL with High Availability

Cloud SQL HA configuration ensures your database survives zonal failures and can quickly promote cross-region replicas during regional disasters.

Configuration Steps:
1. In GCP Console (right panel), click "Cloud SQL" tab
2. Click "Create Instance" button
3. Database Type Select "PostgreSQL 15"
4. Instance ID Type: globalmedia-primary-us-central1
5. Password Enter strong password (save it!)
6. Region Select "us-central1 (Iowa)"
7. Zonal Availability Select "Multiple zones (Highly available)"
8. Machine Type Select "db-n1-standard-4" (4 vCPU, 15 GB RAM)
9. Storage 500 GB SSD, Enable automatic storage increase
10. Backups Enable automated daily backups, 30-day retention
11. Click "Create Instance"

HA vs Read Replicas: HA provides automatic failover within same region (99.95% SLA). Cross-region replicas provide DR across regions. You need BOTH for comprehensive protection!
Create Cross-Region Read Replica for DR

The cross-region replica continuously replicates data from primary. During disaster, you promote it to standalone instance with one click.

Creating Replica:
1. Select your primary instance "globalmedia-primary-us-central1"
2. Click "Create Read Replica" button
3. Replica ID Type: globalmedia-replica-us-east1
4. Region Select "us-east1 (South Carolina)" (different region!)
5. Machine Type Match primary: "db-n1-standard-4"
6. High Availability Enable (replica can also be HA!)
7. Replication Options:
    Enable: "Automatic Failover to this replica"
    Promote on: "Primary instance failure"
    Promotion Priority: "High"
8. Click "Create Replica"
9. Wait 10-15 minutes for initial data sync

Important: After promotion, replica becomes standalone instance and stops replicating. You must manually failback to restore replication!
Deploy GKE Clusters in Multiple Regions

For application layer DR, deploy identical GKE clusters in primary and secondary regions. Use multi-cluster Ingress to route traffic.

GKE Cluster Setup:
1. Click "Kubernetes Engine" "Clusters"
2. Click "Create" button

Primary Cluster (us-central1):
3. Name globalmedia-primary-cluster
4. Location type "Zonal" Zone: "us-central1-a"
5. Master Version Select "Stable channel" (latest)
6. Node Pools:
    Machine type: "n1-standard-4"
    Number of nodes: 3 (minimum for HA)
    Enable autoscaling: Min 3, Max 10
7. Networking:
    VPC: "default"
    Enable HTTP load balancing
    Enable Cloud Monitoring
8. Click "Create"

Secondary Cluster (us-east1):
9. Repeat steps 2-8 with:
    Name: globalmedia-secondary-cluster
    Zone: "us-east1-b"
    Same node configuration

Cost Optimization: Keep secondary cluster at minimum 1-2 nodes during normal operations. Scale up automatically during failover using Cluster Autoscaler.
Configure Global Load Balancer

GCP Global Load Balancer routes users to nearest healthy backend. During regional failure, it automatically redirects to secondary region within seconds.

Load Balancer Configuration:
1. Navigate to "Network Services" "Load Balancing"
2. Click "Create Load Balancer"
3. Type Select "HTTP(S) Load Balancing"
4. Internet facing Yes
5. Backend Configuration:
   Backend Service 1 (Primary):
    Name: "backend-us-central1"
    Backend type: "Instance group" (GKE nodes)
    Instance group: "gke-primary-cluster-default-pool"
    Port: 80, Protocol: HTTP
    Health Check: "/healthz" every 10 seconds
    Timeout: 5 seconds, Unhealthy threshold: 2
   Backend Service 2 (Secondary):
    Name: "backend-us-east1"
    Same configuration for secondary cluster
6. Routing Rules:
    Traffic Split: 100% to primary (normal)
    Failover: Automatic on health check failure
7. Frontend Configuration:
    Protocol: HTTPS
    IP: Reserve static IP "globalmedia-lb-ip"
    Certificate: Upload SSL cert or use Google-managed
8. Click "Create"

Health Checks: Configure aggressive health checks (10s interval, 2 failures = unhealthy) to detect issues quickly and failover faster.
Set Up Multi-Region Cloud Storage

Store user uploads, videos, and static assets in multi-region buckets for automatic geo-redundancy without manual replication.

Storage Configuration:
1. Navigate to "Cloud Storage" "Buckets"
2. Click "Create Bucket"
3. Name globalmedia-videos-prod
4. Location type Select "Multi-region"
5. Multi-region Select "US" (covers central and east)
6. Storage class "Standard"
7. Access control "Uniform"
8. Protection tools:
✓ Enable versioning (for accidental deletes)
✓ Enable object lifecycle management
9. Encryption Google-managed encryption key
10. Click "Create"

Multi-Region Benefits: Data is automatically stored in at least 2 geographically separated regions. If one region fails, data remains accessible from other region with same URL!
Deploy Application with Automated Failover

Deploy your containerized application to both GKE clusters with identical configuration. Use ConfigMaps to point to local database replica.

Application Deployment:
1. Click "Workloads" tab
2. Select primary cluster
3. Click "Deploy"
4. Container Image gcr.io/globalmedia/app:v2.1
5. Environment Variables:
    DB_HOST: "globalmedia-primary-us-central1.db"
    DB_REPLICA_HOST: "globalmedia-replica-us-east1.db"
    STORAGE_BUCKET: "globalmedia-videos-prod"
6. Replicas 3 (for HA)
7. Repeat for secondary cluster (change DB_HOST to replica)
8. Configure liveness probe: GET /health every 10s
9. Configure readiness probe: GET /ready every 5s
10. Click "Deploy"
Configure DR Drill and Validate RTO/RPO

Test the entire DR process: simulate primary region failure, measure failover time, validate data consistency, and document results.

DR Drill Procedure:
1. Navigate to "Monitoring" "DR Testing"
2. Click "New DR Drill"
3. Scope Select "Full Stack Failover"
4. Test Actions:
    Simulate: "us-central1 region outage"
    Promote: Cloud SQL replica to primary
    Redirect: Global LB to us-east1
    Scale: GKE secondary cluster to full capacity
5. Success Criteria:
    All health checks pass
    Zero data loss (RPO check)
    Complete within 20 minutes (RTO check)
    Application fully functional
6. Click "Start DR Drill"
7. Monitor progress and record metrics
8. After validation, click "Failback to Primary"

Critical: Always perform DR drills during low-traffic periods (e.g., 2-4 AM local time) and notify all stakeholders beforehand!

Google Cloud Console - Multi-Region DR

Cloud SQL

Kubernetes Engine

Load Balancing

Cloud Storage

Monitoring

Instance Configuration

Instance ID

Unique identifier for this instance

Database engine

Choose your database type

PostgreSQL 15

Open-source relational database

MySQL 8.0

Popular open-source database

Region

Primary location for your database

Zonal availability

Highly available configuration with automatic failover

Single zone

Lower cost, no automatic failover

Multiple zones (Highly available)

99.95% SLA with automatic failover

Machine type

vCPUs and memory for your instance

Cluster Configuration

Cluster Name

Region

Number of nodes

Load Balancer Configuration

Load Balancer Name

Backend Services

• Primary: us-central1-backend

• Secondary: us-east1-backend

Storage Bucket Configuration

Bucket Name

Location Type

Monitoring Configuration

Dashboard Name

Alerts

Cloud SQL Replication Lag > 60s GKE Cluster Health Load Balancer Errors

Progress: 0/7 tasks completed

Score: 0/100

Lab 27 Complete!

Excellent GCP multi-region DR implementation!

Multi-Cloud Disaster Recovery Mastery

Advanced DR Labs - Module 9

Learning Objectives:

Step-by-Step Instructions

AWS Management Console - DR Configuration

Configure RDS Multi-Region Replication

Primary Database Instance

Cross-Region Read Replica (us-west-2)

Route 53 Failover Configuration

Health Check Configuration

S3 Cross-Region Replication

Replication Configuration

CloudWatch Monitoring

Monitoring Configuration

Route 53 Failover Configuration

Health Check Configuration

Failover Routing Policy

S3 Cross-Region Replication

Replication Rule Configuration

CloudWatch Monitoring Dashboard

Recent Alarms

Lab Complete!

DR Analytics Dashboard

Learning Objectives:

Detailed Step-by-Step Instructions

Azure Portal - Site Recovery Configuration

Create Recovery Services Vault

Basics

Configure VM Replication

Source Virtual Machines

Network Mapping Configuration

VNet Mapping

Recovery Plan Configuration

Recovery Plan Details

ASR Monitoring & Alerts

Monitoring Metrics

Lab 26 Complete!

Learning Objectives:

Detailed GCP DR Instructions

Google Cloud Console - Multi-Region DR

Create Cloud SQL Instance

Instance Configuration

Create GKE Cluster

Cluster Configuration

Global Load Balancer

Load Balancer Configuration

Multi-Region Cloud Storage

Storage Bucket Configuration

Cloud Monitoring

Monitoring Configuration

Lab 27 Complete!