Chương 14: Monitoring & Logging
Tổng Quan
Giám sát và ghi log giúp bạn phát hiện sự cố, tối ưu hiệu suất, và đáp ứng audit/compliance.
1. Amazon CloudWatch
1.1 CloudWatch Metrics
- Thu thập metrics từ hầu hết dịch vụ AWS (EC2, RDS, Lambda, ALB...).
- Mặc định: Metrics mỗi 5 phút. Detailed Monitoring: Mỗi 1 phút (tính phí).
- Custom Metrics: Gửi metrics riêng (RAM, disk usage, app-level metrics) bằng CloudWatch Agent hoặc API.
⚠️ EC2 mặc định KHÔNG có metric RAM và Disk. Cần cài CloudWatch Agent.
1.2 CloudWatch Alarms
- Đặt threshold cho metric → trigger action khi vượt ngưỡng.
- Actions: SNS notification, Auto Scaling, EC2 action (stop/terminate/reboot).
- 3 trạng thái:
OK→INSUFFICIENT_DATA→ALARM. - Composite Alarms: Kết hợp nhiều alarms bằng AND/OR logic.
1.3 CloudWatch Logs
- Thu thập, lưu trữ, và phân tích log files.
- Sources: EC2 (CloudWatch Agent), Lambda, ECS, Route 53, API Gateway, CloudTrail...
- Log Groups → Log Streams → Log Events.
- Metric Filters: Tìm pattern trong logs → tạo custom metric → alarm.
- Export đến: S3 (batch) hoặc Kinesis Data Firehose (near real-time).
1.4 CloudWatch Logs Insights
- Query logs bằng ngôn ngữ truy vấn riêng.
- Tìm kiếm, phân tích, visualize log data nhanh chóng.
2. AWS CloudTrail
- Ghi lại mọi API call trong AWS account (ai làm gì, khi nào, từ đâu).
- Mặc định: Bật cho tất cả accounts (90 ngày event history miễn phí).
- Trail: Cấu hình ghi vào S3 / CloudWatch Logs để lưu lâu dài.
2.1 Event Types
| Type | Mô tả | Ví dụ |
|---|---|---|
| Management Events | API calls quản lý tài nguyên | CreateBucket, LaunchInstance |
| Data Events | API calls trên data | S3 GetObject, Lambda Invoke |
| Insight Events | Phát hiện hoạt động bất thường | Đột biến API calls |
Management Events mặc định ON. Data Events mặc định OFF (volume cao, tính phí).
3. VPC Flow Logs (Review)
- Ghi metadata traffic mạng (source/dest IP, port, action ACCEPT/REJECT).
- Gửi đến CloudWatch Logs hoặc S3.
- Dùng để troubleshoot connectivity, phát hiện bất thường.
4. AWS X-Ray
- Distributed tracing — theo dõi request qua nhiều services (API Gateway → Lambda → DynamoDB).
- Tạo service map trực quan: thấy được bottleneck, lỗi, latency ở đâu.
- Hỗ trợ: Lambda, ECS, EC2, Elastic Beanstalk.
5. AWS Trusted Advisor
- Kiểm tra account theo 5 categories: Cost Optimization, Performance, Security, Fault Tolerance, Service Limits.
- Basic/Developer: 7 core checks (S3 public, SG unrestricted, MFA root...).
- Business/Enterprise: Full checks + API access.
6. AWS Health Dashboard
| Service Health | Account Health (Personal) | |
|---|---|---|
| Scope | Tất cả AWS services toàn cầu | Ảnh hưởng đến account bạn |
| Alerts | Không | ✅ Proactive notifications |
| Use case | Kiểm tra AWS outage | Biết maintenance/outage ảnh hưởng resources bạn |
Exam Tips 💡
- CloudWatch = Metrics & Logs & Alarms. CloudTrail = API audit log.
- EC2 RAM/Disk metrics cần CloudWatch Agent (không có mặc định).
- CloudTrail cho câu hỏi "ai đã xóa/tạo tài nguyên X?" → kiểm tra Management Events.
- X-Ray khi cần debug latency/errors trong microservices/serverless.
- Trusted Advisor kiểm tra security best practices + cost optimization.
- CloudWatch Metric Filter để tạo alarm từ log patterns.
Câu Hỏi Ôn Tập 📝
Câu 1: EC2 instance sắp hết RAM nhưng không có alarm nào báo. Tại sao?
Xem đáp án
EC2 không có metric RAM mặc định. Cần cài CloudWatch Agent để gửi custom metric mem_used_percent, sau đó tạo CloudWatch Alarm.
Câu 2: Bảo mật phát hiện có người xóa S3 bucket quan trọng. Làm sao tìm thủ phạm?
Xem đáp án
Kiểm tra AWS CloudTrail — lọc Management Event DeleteBucket, xem userIdentity, sourceIPAddress, và eventTime.
⬅️ Chương 13: Security & Encryption | Chương 15: Infrastructure as Code ➡️