その他サービス・ 2026-05-06

AWS Glue とは？サーバーレス ETL とデータカタログ

AWS Glue はサーバーレスな ETL サービス。データソース（S3 / RDS / DynamoDB 等）からデータを抽出・変換・ロードし、データレイク・DWH を構築する。Data Catalog（メタデータ管理）も提供し、Athena・Redshift Sp...

#AWS #Glue #分析

サーバーレスな ETL（Extract Transform Load）サービス。データレイクの構築・変換・カタログ化を担う。

1. 概要（端的に）

AWS Glue は サーバーレスな ETL サービス。データソース（S3 / RDS / DynamoDB 等）からデータを 抽出・変換・ロード し、データレイク・DWH を構築する。Data Catalog（メタデータ管理）も提供し、Athena・Redshift Spectrum・EMR から共通スキーマとして参照可能。

2. 何ができるか

ETL ジョブ：Spark / Python ベースのデータ変換
Data Catalog：S3 上のデータのスキーマ管理
Crawler：データから自動的にスキーマ推論
Glue Studio：ビジュアル ETL 開発
Glue DataBrew：ビジュアルデータクリーニング

3. 特徴

観点	特徴
追加料金	DPU 時間（Data Processing Unit）
マネージド	サーバーレス
エンジン	Apache Spark（PySpark / Scala）/ Python Shell
メタデータ統合	Athena / Redshift / EMR で共通利用

4. 仕組み

Glue の中核は Data Catalog。S3 上のデータに対する スキーマ・パーティション情報 を中央管理し、Athena 等が共通参照する。

Crawler

S3 / RDS をスキャン → スキーマ自動推論
Data Catalog にテーブル登録
スケジュール実行で継続更新

5. ユースケース

ユースケース 1：データレイク ETL

S3 の生データ → 変換 → Parquet 化 → 分析用 S3。

ユースケース 2：データウェアハウス取込

オンプレ DB → Glue → Redshift。

ユースケース 3：スキーマ管理

S3 データの中央スキーマ管理 → Athena / Redshift で利用。

6. 関連用語

S3 — 主要データソース
Athena — Data Catalog 利用
Redshift / EMR — Data Catalog 共有

7. 関連サイト

AWS Glue

🎓 試験での出題傾向

試験	重要度	主な出題パターン
CLF	中	ETL の概念
SAA	高	データレイク設計（頻出）
DVA	低	出題稀
SOA	中	ETL 運用