その他サービス ・
Amazon Athena とは?S3 を SQL で直接クエリするサーバーレス分析
Amazon Athena は S3 上のデータを SQL でクエリできるサーバーレス分析サービス。インフラ管理不要・スキャン量ベース課金で、アドホック分析に最適。Glue Data Catalog と統合し、CSV / JSON / Parquet / ORC 等の形式に...
S3 のデータを SQL で直接クエリできるサーバーレス分析サービス。インフラ管理不要で即時分析。
1. 概要(端的に)
Amazon Athena は S3 上のデータを SQL でクエリできるサーバーレス分析サービス。インフラ管理不要・スキャン量ベース課金で、アドホック分析に最適。Glue Data Catalog と統合し、CSV / JSON / Parquet / ORC 等の形式に対応する。
2. 何ができるか
- S3 を SQL で分析:標準 SQL(Presto / Trino ベース)
- 多形式対応:CSV / JSON / Parquet / ORC / Avro
- Glue 統合:スキーマ管理共有
- 連携 SQL:Federated Query で RDS / DynamoDB 等もクエリ
- CTAS:Create Table As Select で結果をテーブル化
3. 特徴
| 観点 | 特徴 |
|---|---|
| 追加料金 | スキャン量 $5/TB |
| サーバーレス | インフラ管理不要 |
| 遅延 | クエリごとに数秒〜数分 |
| 形式 | Parquet 推奨(コスト最適) |
コスト最適化
- Parquet 等の列指向形式:スキャン量大幅削減
- パーティショニング:日付・地域別等で WHERE 絞込
- 圧縮:GZIP / Snappy
→ 数 GB のデータを Parquet + パーティションにすれば数 MB のスキャンで完了し、料金が劇的に下がる。
4. 仕組み
Athena は Presto(現 Trino)エンジンを S3 に接続したもの。クエリ受信時に S3 をスキャンし、結果を返す。
5. ユースケース
ユースケース 1:ログ分析
ALB / CloudFront / VPC Flow Logs を S3 → Athena でクエリ。
ユースケース 2:データレイク分析
S3 上の大量データをアドホック分析。
ユースケース 3:BI ツール接続
QuickSight / Tableau から Athena 経由で S3 データを参照。
ユースケース 4:監査ログ調査
CloudTrail ログから不審操作を抽出。
6. 関連用語
- S3 — データソース
- Glue — Data Catalog 提供
- Redshift-Spectrum — 似た機能(Redshift から)
- QuickSight — BI 連携
7. 関連サイト
🎓 試験での出題傾向
| 試験 | 重要度 | 主な出題パターン |
|---|---|---|
| CLF | 中 | サーバーレス分析の概念 |
| SAA | 高 | データレイク設計(頻出) |
| DVA | 中 | API 利用 |
| SOA | 中 | ログ分析運用 |