その他サービス

AWS Glue とは?サーバーレス ETL とデータカタログ

AWS Glue は サーバーレスな ETL サービス。データソース(S3 / RDS / DynamoDB 等)からデータを 抽出・変換・ロード し、データレイク・DWH を構築する。Data Catalog(メタデータ管理)も提供し、Athena・Redshift Sp...

サーバーレスな ETL(Extract Transform Load)サービス。データレイクの構築・変換・カタログ化を担う。


1. 概要(端的に)

AWS Glue は サーバーレスな ETL サービス。データソース(S3 / RDS / DynamoDB 等)からデータを 抽出・変換・ロード し、データレイク・DWH を構築する。Data Catalog(メタデータ管理)も提供し、Athena・Redshift Spectrum・EMR から共通スキーマとして参照可能。


2. 何ができるか

  • ETL ジョブ:Spark / Python ベースのデータ変換
  • Data Catalog:S3 上のデータのスキーマ管理
  • Crawler:データから自動的にスキーマ推論
  • Glue Studio:ビジュアル ETL 開発
  • Glue DataBrew:ビジュアルデータクリーニング

3. 特徴

観点特徴
追加料金DPU 時間(Data Processing Unit)
マネージドサーバーレス
エンジンApache Spark(PySpark / Scala)/ Python Shell
メタデータ統合Athena / Redshift / EMR で共通利用

4. 仕組み

Glue の中核は Data Catalog。S3 上のデータに対する スキーマ・パーティション情報 を中央管理し、Athena 等が共通参照する。

Crawler

  • S3 / RDS をスキャン → スキーマ自動推論
  • Data Catalog にテーブル登録
  • スケジュール実行で継続更新

5. ユースケース

ユースケース 1:データレイク ETL

S3 の生データ → 変換 → Parquet 化 → 分析用 S3。

ユースケース 2:データウェアハウス取込

オンプレ DB → Glue → Redshift。

ユースケース 3:スキーマ管理

S3 データの中央スキーマ管理 → Athena / Redshift で利用。


6. 関連用語

  • S3 — 主要データソース
  • Athena — Data Catalog 利用
  • Redshift / EMR — Data Catalog 共有

7. 関連サイト


🎓 試験での出題傾向

試験重要度主な出題パターン
CLFETL の概念
SAAデータレイク設計(頻出
DVA出題稀
SOAETL 運用