Data Analytics Expert Labs

Lab 19: Real-Time Stream Processing

Streaming / Expert

Scenario: High-Throughput Event Processing

TechStream Inc needs a real-time data processing pipeline to handle millions of events per second from IoT devices, user interactions, and system logs. You'll design a streaming architecture using Apache Kafka and Apache Flink, implement complex event processing with stateful computations, configure exactly-once semantics, and build real-time analytics dashboards with sub-second latency requirements.

Learning Objectives:

Event Ingestion: Configure Kafka topics with partitioning strategies
Stream Processing: Build Flink jobs with windowing and aggregations
State Management: Implement checkpointing and savepoints
Delivery Guarantees: Configure exactly-once processing semantics

📋 Step-by-Step Instructions

Step 1: Configure Kafka Topics
Set up Kafka topics with appropriate partitioning for high-throughput event ingestion and parallel processing.

Configuration:
• Topic Name: Descriptive identifier (e.g., "iot-sensor-events", "user-clickstream")
• Partitions: Number of partitions (minimum 3, recommended 10-50 for high volume)
• Replication Factor: Minimum 3 for production reliability
• Compression: Choose codec (Snappy/LZ4/ZSTD) - affects throughput vs CPU

💡 Tip: More partitions = more parallelism but more overhead. Start with 10-20 for most use cases.
Step 2: Design Flink Stream Job
Create a Flink streaming application with event deserialization, filtering, transformation, and enrichment logic.

Configuration:
• Job Name: Application identifier (e.g., "realtime-analytics-pipeline")
• Parallelism: Number of parallel instances (1-100, match partition count)
• Time Characteristic: Event Time (for accuracy) or Processing Time (for speed)
• Watermark Strategy: Bounded/Unbounded out-of-orderness tolerance (milliseconds)

💡 Tip: Use Event Time with watermarks for accurate time-based operations. Processing Time is simpler but less accurate.
Step 3: Configure Windowing Operations
Define time windows for aggregations like counts, sums, averages over sliding or tumbling time periods.

Configuration:
• Window Type: Tumbling (non-overlapping), Sliding (overlapping), or Session (gap-based)
• Window Size: Duration in seconds (e.g., 60 for 1-minute windows)
• Allowed Lateness: Grace period for late events (seconds)
• Trigger Strategy: When to emit results (on time/on count/on event)

💡 Tip: Tumbling windows for discrete time buckets (hourly reports). Sliding for moving averages.
Step 4: Implement State Management
Configure stateful operations with checkpointing to enable fault tolerance and exactly-once processing.

Configuration:
• State Backend: Choose storage (Memory/RocksDB/Filesystem)
• Checkpoint Interval: How often to checkpoint (ms, recommended 10000-60000)
• Checkpoint Timeout: Max duration before failure (milliseconds)
• Exactly-Once: ✓ MUST be enabled for production consistency

💡 Tip: RocksDB for large state, Filesystem for medium. Checkpoint every 30-60 seconds for balance.
Step 5: Configure Sink Connectors
Define output destinations for processed events with appropriate consistency and latency guarantees.

Configuration:
• Sink Type: Choose destination (Kafka/Elasticsearch/Cassandra/PostgreSQL)
• Write Mode: Append-only, Upsert, or Retract for handling updates
• Batch Size: Events per write batch (100-1000 for efficiency)
• Flush Interval: Max time to wait before flushing (seconds)

💡 Tip: Elasticsearch for search/analytics, Kafka for further streaming, PostgreSQL for transactional data.
Step 6: Setup Monitoring & Alerting
Configure metrics collection and alerting for throughput, latency, backpressure, and failures.

Configuration:
• Metrics Reporter: Prometheus, Datadog, or CloudWatch for metrics export
• Lag Alert Threshold: Consumer lag triggering alert (records, e.g., 100000)
• Latency Alert: Processing delay threshold (ms, e.g., 5000)
• Dashboard: ✓ Grafana or Kibana for visualization

💡 Tip: Monitor consumer lag closely - it indicates if processing can't keep up with ingestion rate.

Data Mesh Control Plane

Step 1: Data Domain

Domain Name:

Owner Team:

Business Capability:

Data Sources (comma-separated):

Step 2: Data Product

Product Name:

Description:

Output Format:

Update Frequency:

Step 3: Data Contract

Schema Version:

Quality Threshold (%):

SLA Uptime (%):

Enable Backward Compatibility

Step 4: Self-Serve Platform

Compute Resources:

Spark Airflow dbt

Storage Type:

IaC Tool:

Step 5: Governance Policies

Data Classification:

Public Internal Confidential

Retention Policy (days):

Access Control Model:

Step 6: Data Discovery

Catalog Tool:

Tags (comma-separated):

Enable Data Lineage

Auto Data Profiling

Progress: 0/6 tasks completed

Score: 0/100

0%

Lab Completed!

Excellent mesh architecture!

Lab 20: MLOps Pipeline

ML / Advanced

Scenario: Automated ML Deployment

DataAI Corp needs an end-to-end MLOps pipeline for automated model training, validation, and deployment. You'll build a CI/CD pipeline for ML models, implement feature stores, set up model monitoring, configure A/B testing infrastructure, and establish model governance. The system must handle model versioning, automated retraining, and performance tracking.

Learning Objectives:

Feature Engineering: Build and version feature stores
Model Training: Automate training pipelines
Deployment: Configure canary and blue-green deployments
Monitoring: Track drift, performance, and fairness metrics

📋 Step-by-Step Instructions

Step 1: Setup Feature Store
A feature store centralizes ML features for training and serving, ensuring consistency between training and inference.

Configuration:
• Store Name: Identifier for the store (e.g., "customer_features", "fraud_detection_store")
• Feature Group: Logical grouping of related features (e.g., "user_behavior", "transaction_patterns")
• Storage Backend: Choose your feature store platform (Feast/Tecton/Hopsworks)
• Serving Mode: Online (real-time inference), Offline (batch), or Both
• Versioning: ✓ MUST be enabled to track feature changes

💡 Tip: Use "Both" serving mode if you need real-time predictions AND batch training.
Step 2: Define Training Pipeline
Create an automated pipeline that handles data ingestion, preprocessing, training, and validation.

Configuration:
• Pipeline Name: Descriptive name (e.g., "churn_prediction", "fraud_classifier")
• Orchestrator: Choose workflow engine (Kubeflow/MLflow/Airflow)
• Training Framework: Scikit-learn (tabular), TensorFlow/PyTorch (deep learning)
• Hyperparameter Tuning: Grid Search, Random Search, or Bayesian optimization

💡 Tip: Bayesian optimization is most efficient for complex hyperparameter spaces.
Step 3: Configure Model Registry
A model registry stores trained models with versioning, metadata, and lifecycle management.

Configuration:
• Registry Tool: Where models are stored (MLflow/Neptune.ai/Weights & Biases)
• Model Version: Semantic versioning (e.g., "1.0.0")
• Stage: Staging (testing) → Production (live) → Archived (deprecated)
• Approval Workflow: ✓ MUST be enabled for production safety

💡 Tip: Always use Staging before Production. Never skip the approval step!
Step 4: Deployment Strategy
Configure how models are released to production with safety mechanisms for rollback.

Configuration:
• Deployment Type: Canary (gradual 10%→100%), Blue-Green (instant switch), Shadow (parallel)
• Traffic Split: % of traffic to new model (0-100)
• Rollback Threshold: Error % that triggers automatic rollback (0-100)
• Serving Platform: Seldon Core, KServe, or SageMaker

💡 Tip: Start with 10% traffic split for canary. Set rollback threshold at 5% for safety.
Step 5: Model Monitoring
Set up continuous monitoring to detect when model performance degrades in production.

Configuration:
• Monitoring Metrics: Check ALL - Data Drift, Concept Drift, Performance
• Alert Threshold: PSI/drift score that triggers alert (e.g., 0.15)
• Retraining Trigger: When to automatically retrain (On Drift/On Performance/Scheduled)

💡 Tip: Alert threshold of 0.15 PSI is industry standard. Check ALL monitoring metrics!
Step 6: Governance & Compliance
Ensure models are explainable, fair, and compliant with regulations.

Configuration:
• Explainability Tool: How to interpret predictions (SHAP/LIME/ELI5)
• Bias Detection: Fairlearn, AIF360, or What-If Tool
• Compliance Framework: GDPR (EU), CCPA (California), HIPAA (Healthcare)
• Audit Trail: ✓ MUST be enabled for regulatory compliance

💡 Tip: SHAP is most widely accepted for explainability. Always enable audit trail!

MLOps Control Center

Step 1: Feature Store

Store Name:

Feature Group:

Storage Backend:

Serving Mode:

Enable Feature Versioning

Step 2: Training Pipeline

Pipeline Name:

Orchestrator:

Training Framework:

Hyperparameter Tuning:

Step 3: Model Registry

Registry Tool:

Model Version:

Stage:

Require Approval Workflow

Step 5: Model Monitoring

Monitoring Metrics:

Data Drift Concept Drift Performance

Alert Threshold:

Retraining Trigger:

Step 6: Model Governance

Explainability Tool:

Bias Detection:

Compliance Framework:

Enable Audit Trail

Progress: 0/6 tasks completed

Score: 0/100

0%

Lab Completed!

Excellent MLOps pipeline!

Lab 21: Data Governance Framework

Governance / Advanced

Scenario: Enterprise Data Governance

ComplianceFirst Inc. requires a comprehensive data governance framework spanning data quality, lineage, privacy, and regulatory compliance. You'll design a governance operating model, implement data quality scorecards, establish lineage tracking, configure privacy controls, and set up compliance reporting. The framework must support GDPR, CCPA, and SOC 2 requirements with automated auditing.

Learning Objectives:

Operating Model: Define roles, responsibilities, and workflows
Data Quality: Implement quality rules and scorecards
Lineage: Track end-to-end data lineage
Compliance: Automate privacy and regulatory controls

Progress: 0/6 tasks completed

Score: 0/100

0%

Lab Completed!

Excellent governance framework!

Stream Processing & MLOps - Module 7

Learning Objectives:

📋 Step-by-Step Instructions

Step 1: Data Domain

Step 2: Data Product

Step 3: Data Contract

Step 4: Self-Serve Platform

Step 5: Governance Policies

Step 6: Data Discovery

Lab Completed!

Learning Objectives:

📋 Step-by-Step Instructions

Step 1: Feature Store

Step 2: Training Pipeline

Step 3: Model Registry

Step 4: Deployment Strategy

Step 5: Model Monitoring

Step 6: Model Governance

Lab Completed!

Learning Objectives:

📋 Step-by-Step Instructions

Step 1: Operating Model

Step 2: Data Quality

Step 3: Data Lineage

Step 4: Privacy Controls

Step 5: Compliance Automation

Step 6: Audit & Reporting

Lab Completed!