データベース ・
Redshift Spectrum とは?S3 を Redshift から直接クエリ
Redshift Spectrum は S3 のデータを Redshift クラスターからロードせずに直接 SQL クエリできる機能。Redshift クラスター内のデータと S3 上のデータを JOIN して分析可能。データレイクと DWH を統合した分析が実現できる。 ---
S3 上のデータを Redshift から直接 SQL でクエリできる機能。データレイクとの統合に有効。
1. 概要(端的に)
Redshift Spectrum は S3 のデータを Redshift クラスターからロードせずに直接 SQL クエリできる機能。Redshift クラスター内のデータと S3 上のデータを JOIN して分析可能。データレイクと DWH を統合した分析が実現できる。
2. 何ができるか
- S3 データの直接 SQL クエリ:ロード不要
- Redshift と S3 のデータ JOIN:シームレス分析
- 多形式対応:Parquet / ORC / CSV / JSON
- Glue Data Catalog 統合:スキーマ管理
- スキャン量に応じた課金:使った分だけ
3. 特徴
| 観点 | 特徴 |
|---|---|
| 追加料金 | スキャンしたデータ量($5/TB) |
| 対応形式 | Parquet(推奨)/ ORC / CSV / JSON / Avro |
| スキーマ管理 | AWS Glue Data Catalog |
| 対象 | S3 のみ |
vs Athena
| 観点 | Redshift Spectrum | Athena |
|---|---|---|
| 必要前提 | Redshift クラスター | なし(サーバーレス) |
| 統合 | Redshift と JOIN 可 | 単体 |
| 料金 | $5/TB スキャン | $5/TB スキャン |
| 用途 | DWH + データレイク連携 | アドホック分析 |
→ 同じ料金体系だが用途が違う。
4. 仕組み
Redshift Spectrum は Redshift クラスターから別の Spectrum 専用ワーカーにクエリを送り、S3 上のデータをスキャン・処理する。Redshift 本体のリソースは消費しない。
動作の流れ
- Glue Data Catalog で S3 上のデータスキーマを定義
- Redshift で External Schema として登録
- Redshift から
SELECT ... FROM external_schema.s3_table - Spectrum がリーダーから別ワーカーに処理委託
- S3 をスキャン → 結果を Redshift に返す
5. ユースケース
ユースケース 1:コールドデータの分析
頻繁アクセスデータは Redshift、過去ログは S3 に置いて Spectrum で参照。
ユースケース 2:データレイク統合
Glue + S3 + Spectrum でデータレイク分析。
ユースケース 3:コスト最適化
Redshift にロードせずに S3 から直接クエリ → ストレージコスト削減。
6. 関連用語
7. 関連サイト
AWS 公式
🎓 試験での出題傾向
| 試験 | 重要度 | 主な出題パターン |
|---|---|---|
| CLF | − | 出題なし |
| SAA | 中 | データレイク統合シナリオ |
| DVA | 低 | 出題稀 |
| SOA | 低 | 出題ほぼなし |