Chương 16: Data & Analytics
Tổng Quan
AWS cung cấp nhiều dịch vụ để truy vấn, chuyển đổi, và phân tích data ở mọi quy mô. Kỳ thi SAA kiểm tra bạn chọn đúng dịch vụ cho từng use case.
1. Amazon Athena
- Serverless query service — truy vấn data trực tiếp trên S3 bằng SQL.
- Không cần ETL — query files trực tiếp (CSV, JSON, Parquet, ORC).
- Trả tiền theo data scanned ($5/TB).
- Tối ưu chi phí: Dùng format Parquet/ORC (columnar, compressed) → scan ít data hơn.
- Use case: Ad-hoc queries, log analysis, serverless analytics.
💡 Exam Tip: "Query S3 data bằng SQL" hoặc "Serverless analytics" → Athena.
2. Amazon Redshift
- Data Warehouse (OLAP) — phân tích dữ liệu lớn bằng SQL.
- Columnar storage — nhanh hơn RDS cho analytical queries.
- Không phải Serverless (có Redshift Serverless variant).
- Tích hợp: S3, DMS, Kinesis Firehose.
- Redshift Spectrum: Query data trên S3 mà không cần load vào Redshift.
- Use case: BI reporting, complex analytical queries, data consolidation.
3. AWS Glue
- Serverless ETL (Extract, Transform, Load) service.
- Glue Data Catalog: Metadata store cho tất cả data sources (tương thích Athena, Redshift, EMR).
- Glue Crawlers: Tự động scan data sources → tạo schema trong Data Catalog.
- Glue Jobs: Transform data bằng Spark (Python/Scala).
S3 (raw data) ──Glue Crawler──▶ Data Catalog ──Glue Job──▶ S3 (transformed) ──▶ Athena/Redshift
💡 Exam Tip: "ETL", "data catalog", "discover schema" → AWS Glue.
4. Amazon EMR (Elastic MapReduce)
- Managed Hadoop/Spark cluster.
- Dùng cho big data processing (petabyte-scale).
- Hỗ trợ: Apache Spark, HBase, Presto, Hive, Flink.
- Use case: Machine learning, data transformation, log processing ở quy mô lớn.
5. Các Dịch Vụ Khác
| Dịch vụ | Mô tả | Keyword trong đề thi |
|---|---|---|
| Amazon QuickSight | Serverless BI dashboard/visualization | "BI", "dashboard", "visualization" |
| AWS Lake Formation | Tạo secure Data Lake trên S3 (permissions, auditing) | "data lake", "fine-grained access control" |
| Amazon OpenSearch (Elasticsearch) | Full-text search, log analytics, dashboards | "search", "log analytics", "Elasticsearch" |
| Amazon MSK (Managed Kafka) | Managed Apache Kafka (streaming) | "Kafka", "real-time streaming" |
Chọn Đúng Dịch Vụ
| Nhu cầu | Dịch vụ |
|---|---|
| Query S3 bằng SQL, serverless | Athena |
| Data Warehouse, complex analytics | Redshift |
| ETL, data catalog | AWS Glue |
| Big data Hadoop/Spark | Amazon EMR |
| BI dashboards | QuickSight |
| Real-time streaming | Kinesis hoặc MSK |
| Full-text search | OpenSearch |
| Secure data lake | Lake Formation |
Exam Tips 💡
- Athena = Serverless SQL on S3. Dùng Parquet để giảm chi phí.
- Redshift = Data Warehouse. Redshift Spectrum query S3 mà không load.
- Glue = ETL + Data Catalog. Glue Crawlers tự phát hiện schema.
- QuickSight = BI Dashboard serverless.
- EMR cho Hadoop/Spark big data.
- OpenSearch khi đề nói "search" hoặc "Elasticsearch".
Câu Hỏi Ôn Tập 📝
Câu 1: Công ty lưu logs trên S3 và muốn query bằng SQL mà không cần server. Dùng gì?
Xem đáp án
Amazon Athena. Serverless, query trực tiếp S3 bằng SQL, trả tiền theo data scanned.
Câu 2: Cần tự động phát hiện schema của data files trên S3 để dùng với Athena. Dùng gì?
Xem đáp án
AWS Glue Crawlers. Scan data sources → tạo tables trong Glue Data Catalog → Athena dùng catalog để query.