データベース・ 2026-05-06

Redshift Spectrum とは？S3 を Redshift から直接クエリ

Redshift Spectrum は S3 のデータを Redshift クラスターからロードせずに直接 SQL クエリできる機能。Redshift クラスター内のデータと S3 上のデータを JOIN して分析可能。データレイクと DWH を統合した分析が実現できる。 ---

#AWS #Redshift-Spectrum #データベース

S3 上のデータを Redshift から直接 SQL でクエリできる機能。データレイクとの統合に有効。

1. 概要（端的に）

Redshift Spectrum は S3 のデータを Redshift クラスターからロードせずに直接 SQL クエリできる機能。Redshift クラスター内のデータと S3 上のデータを JOIN して分析可能。データレイクと DWH を統合した分析が実現できる。

2. 何ができるか

S3 データの直接 SQL クエリ：ロード不要
Redshift と S3 のデータ JOIN：シームレス分析
多形式対応：Parquet / ORC / CSV / JSON
Glue Data Catalog 統合：スキーマ管理
スキャン量に応じた課金：使った分だけ

3. 特徴

観点	特徴
追加料金	スキャンしたデータ量（$5/TB）
対応形式	Parquet（推奨）/ ORC / CSV / JSON / Avro
スキーマ管理	AWS Glue Data Catalog
対象	S3 のみ

vs Athena

観点	Redshift Spectrum	Athena
必要前提	Redshift クラスター	なし（サーバーレス）
統合	Redshift と JOIN 可	単体
料金	$5/TB スキャン	$5/TB スキャン
用途	DWH + データレイク連携	アドホック分析

→ 同じ料金体系だが用途が違う。

4. 仕組み

Redshift Spectrum は Redshift クラスターから別の Spectrum 専用ワーカーにクエリを送り、S3 上のデータをスキャン・処理する。Redshift 本体のリソースは消費しない。

動作の流れ

Glue Data Catalog で S3 上のデータスキーマを定義
Redshift で External Schema として登録
Redshift から SELECT ... FROM external_schema.s3_table
Spectrum がリーダーから別ワーカーに処理委託
S3 をスキャン → 結果を Redshift に返す

5. ユースケース

ユースケース 1：コールドデータの分析

頻繁アクセスデータは Redshift、過去ログは S3 に置いて Spectrum で参照。

ユースケース 2：データレイク統合

Glue + S3 + Spectrum でデータレイク分析。

ユースケース 3：コスト最適化

Redshift にロードせずに S3 から直接クエリ → ストレージコスト削減。

6. 関連用語

Redshift — Spectrum の基盤
S3 — データソース
Athena — 競合（サーバーレス代替）
Glue — Data Catalog 提供

7. 関連サイト

AWS 公式

Redshift Spectrum

🎓 試験での出題傾向

試験	重要度	主な出題パターン
CLF	−	出題なし
SAA	中	データレイク統合シナリオ
DVA	低	出題稀
SOA	低	出題ほぼなし