データベース ・
Amazon Redshift とは?ペタバイト級フルマネージド DWH
Amazon Redshift は ペタバイト級のフルマネージド DWH。列指向ストレージ + 並列処理で 複雑な SQL クエリを超高速 に実行。BI ツール(QuickSight・Tableau 等)と統合し、企業の分析基盤として活躍。RDS と違い OLAP(分析)専...
AWS のフルマネージド データウェアハウス(DWH)。列指向・ペタバイト級・SQL 互換で高速分析。
1. 概要(端的に)
Amazon Redshift は ペタバイト級のフルマネージド DWH。列指向ストレージ + 並列処理で 複雑な SQL クエリを超高速 に実行。BI ツール(QuickSight・Tableau 等)と統合し、企業の分析基盤として活躍。RDS と違い OLAP(分析)専用。
2. 何ができるか
- 大規模 SQL 分析:ペタバイト級
- 列指向ストレージ:分析クエリに最適
- MPP(Massively Parallel Processing):並列分散処理
- Redshift Spectrum:S3 を直接クエリ
- Redshift Serverless:サーバーレス版
- データ共有:別クラスターへ読み取り共有
- ML 統合:SageMaker と連携
3. 特徴
| 観点 | 特徴 |
|---|---|
| 追加料金 | ノードタイプ × 時間 + ストレージ |
| データ容量 | ペタバイト級 |
| 互換性 | PostgreSQL 互換 SQL |
| アーキテクチャ | リーダーノード + コンピュートノード(MPP) |
| RA3 / DC2 | 用途別ノードファミリー |
| データロード | COPY コマンド(S3 から) |
vs RDS / Athena
| 観点 | Redshift | RDS | Athena |
|---|---|---|---|
| 用途 | OLAP(分析) | OLTP(業務) | アドホック分析 |
| 容量 | ペタバイト | テラバイト | 制限なし(S3 直接) |
| 性能 | 超高速(列指向) | 標準 | クエリ単位 |
| 課金 | クラスター時間 | インスタンス時間 | スキャン量 |
4. 仕組み
Redshift は 「リーダーノード + コンピュートノード」 の MPP アーキテクチャ。クエリはリーダーで解析され、コンピュートノードで並列実行される。
構成要素
- クラスター:1 リーダー + N コンピュートノード
- リーダーノード:クエリパース・配信・結果集約
- コンピュートノード:データ保管・並列実行
- スライス:コンピュートノード内の並列単位
データロード
S3 → COPY コマンド → Redshift
行指向 DB と違い、列ごとに圧縮して保存。集計クエリが超高速。
Redshift Serverless
- ノード管理不要
- 自動スケール
- 使った分だけ課金(RPU = Redshift Processing Unit)
5. ユースケース
ユースケース 1:企業の分析基盤
売上分析・顧客分析・経営ダッシュボード。
ユースケース 2:BI バックエンド
Tableau / Power BI / QuickSight の DWH。
ユースケース 3:データレイク統合
S3 のデータレイク + Redshift Spectrum で統合分析。
ユースケース 4:機械学習データ準備
SageMaker への学習データソース。
ユースケース 5:オンプレ DWH 移行
Teradata / Oracle DWH を Redshift へ。
6. 関連用語
- Redshift-Spectrum — S3 を直接クエリ
- S3 — データソース
- Glue — ETL
- QuickSight — BI 可視化
- Athena — アドホック分析の代替
7. 関連サイト
AWS 公式
参考
🎓 試験での出題傾向
| 試験 | 重要度 | 主な出題パターン |
|---|---|---|
| CLF | 中 | DWH の概念 |
| SAA | 高 | 分析基盤設計、データレイク統合 |
| DVA | 中 | SDK 利用 |
| SOA | 中 | 運用・コスト管理 |