その他サービス ・
AWS Glue とは?サーバーレス ETL とデータカタログ
AWS Glue は サーバーレスな ETL サービス。データソース(S3 / RDS / DynamoDB 等)からデータを 抽出・変換・ロード し、データレイク・DWH を構築する。Data Catalog(メタデータ管理)も提供し、Athena・Redshift Sp...
サーバーレスな ETL(Extract Transform Load)サービス。データレイクの構築・変換・カタログ化を担う。
1. 概要(端的に)
AWS Glue は サーバーレスな ETL サービス。データソース(S3 / RDS / DynamoDB 等)からデータを 抽出・変換・ロード し、データレイク・DWH を構築する。Data Catalog(メタデータ管理)も提供し、Athena・Redshift Spectrum・EMR から共通スキーマとして参照可能。
2. 何ができるか
- ETL ジョブ:Spark / Python ベースのデータ変換
- Data Catalog:S3 上のデータのスキーマ管理
- Crawler:データから自動的にスキーマ推論
- Glue Studio:ビジュアル ETL 開発
- Glue DataBrew:ビジュアルデータクリーニング
3. 特徴
| 観点 | 特徴 |
|---|---|
| 追加料金 | DPU 時間(Data Processing Unit) |
| マネージド | サーバーレス |
| エンジン | Apache Spark(PySpark / Scala)/ Python Shell |
| メタデータ統合 | Athena / Redshift / EMR で共通利用 |
4. 仕組み
Glue の中核は Data Catalog。S3 上のデータに対する スキーマ・パーティション情報 を中央管理し、Athena 等が共通参照する。
Crawler
- S3 / RDS をスキャン → スキーマ自動推論
- Data Catalog にテーブル登録
- スケジュール実行で継続更新
5. ユースケース
ユースケース 1:データレイク ETL
S3 の生データ → 変換 → Parquet 化 → 分析用 S3。
ユースケース 2:データウェアハウス取込
オンプレ DB → Glue → Redshift。
ユースケース 3:スキーマ管理
S3 データの中央スキーマ管理 → Athena / Redshift で利用。
6. 関連用語
7. 関連サイト
🎓 試験での出題傾向
| 試験 | 重要度 | 主な出題パターン |
|---|---|---|
| CLF | 中 | ETL の概念 |
| SAA | 高 | データレイク設計(頻出) |
| DVA | 低 | 出題稀 |
| SOA | 中 | ETL 運用 |