Trang chủ/Chương 16

Chương 16: Data & Analytics

Tổng Quan

AWS cung cấp nhiều dịch vụ để truy vấn, chuyển đổi, và phân tích data ở mọi quy mô. Kỳ thi SAA kiểm tra bạn chọn đúng dịch vụ cho từng use case.


1. Amazon Athena

  • Serverless query service — truy vấn data trực tiếp trên S3 bằng SQL.
  • Không cần ETL — query files trực tiếp (CSV, JSON, Parquet, ORC).
  • Trả tiền theo data scanned ($5/TB).
  • Tối ưu chi phí: Dùng format Parquet/ORC (columnar, compressed) → scan ít data hơn.
  • Use case: Ad-hoc queries, log analysis, serverless analytics.

💡 Exam Tip: "Query S3 data bằng SQL" hoặc "Serverless analytics" → Athena.


2. Amazon Redshift

  • Data Warehouse (OLAP) — phân tích dữ liệu lớn bằng SQL.
  • Columnar storage — nhanh hơn RDS cho analytical queries.
  • Không phải Serverless (có Redshift Serverless variant).
  • Tích hợp: S3, DMS, Kinesis Firehose.
  • Redshift Spectrum: Query data trên S3 mà không cần load vào Redshift.
  • Use case: BI reporting, complex analytical queries, data consolidation.

3. AWS Glue

  • Serverless ETL (Extract, Transform, Load) service.
  • Glue Data Catalog: Metadata store cho tất cả data sources (tương thích Athena, Redshift, EMR).
  • Glue Crawlers: Tự động scan data sources → tạo schema trong Data Catalog.
  • Glue Jobs: Transform data bằng Spark (Python/Scala).
S3 (raw data) ──Glue Crawler──▶ Data Catalog ──Glue Job──▶ S3 (transformed) ──▶ Athena/Redshift

💡 Exam Tip: "ETL", "data catalog", "discover schema" → AWS Glue.


4. Amazon EMR (Elastic MapReduce)

  • Managed Hadoop/Spark cluster.
  • Dùng cho big data processing (petabyte-scale).
  • Hỗ trợ: Apache Spark, HBase, Presto, Hive, Flink.
  • Use case: Machine learning, data transformation, log processing ở quy mô lớn.

5. Các Dịch Vụ Khác

Dịch vụMô tảKeyword trong đề thi
Amazon QuickSightServerless BI dashboard/visualization"BI", "dashboard", "visualization"
AWS Lake FormationTạo secure Data Lake trên S3 (permissions, auditing)"data lake", "fine-grained access control"
Amazon OpenSearch (Elasticsearch)Full-text search, log analytics, dashboards"search", "log analytics", "Elasticsearch"
Amazon MSK (Managed Kafka)Managed Apache Kafka (streaming)"Kafka", "real-time streaming"

Chọn Đúng Dịch Vụ

Nhu cầuDịch vụ
Query S3 bằng SQL, serverlessAthena
Data Warehouse, complex analyticsRedshift
ETL, data catalogAWS Glue
Big data Hadoop/SparkAmazon EMR
BI dashboardsQuickSight
Real-time streamingKinesis hoặc MSK
Full-text searchOpenSearch
Secure data lakeLake Formation

Exam Tips 💡

  1. Athena = Serverless SQL on S3. Dùng Parquet để giảm chi phí.
  2. Redshift = Data Warehouse. Redshift Spectrum query S3 mà không load.
  3. Glue = ETL + Data Catalog. Glue Crawlers tự phát hiện schema.
  4. QuickSight = BI Dashboard serverless.
  5. EMR cho Hadoop/Spark big data.
  6. OpenSearch khi đề nói "search" hoặc "Elasticsearch".

Câu Hỏi Ôn Tập 📝

Câu 1: Công ty lưu logs trên S3 và muốn query bằng SQL mà không cần server. Dùng gì?

Xem đáp án

Amazon Athena. Serverless, query trực tiếp S3 bằng SQL, trả tiền theo data scanned.

Câu 2: Cần tự động phát hiện schema của data files trên S3 để dùng với Athena. Dùng gì?

Xem đáp án

AWS Glue Crawlers. Scan data sources → tạo tables trong Glue Data Catalog → Athena dùng catalog để query.


⬅️ Chương 15: IaC | Chương 17: Migration & Transfer ➡️