その他サービス ・
Amazon EMR とは?Hadoop / Spark のマネージド ビッグデータ基盤
Amazon EMR(Elastic MapReduce)は Hadoop / Spark / Hive / Presto / HBase 等のビッグデータフレームワークをマネージドで実行するクラスター。EC2 ベースで構築され、TB〜PB 級のデータ処理に対応する。データ...
Hadoop / Spark / Hive 等のビッグデータフレームワークをマネージドで実行する分析プラットフォーム。
1. 概要(端的に)
Amazon EMR(Elastic MapReduce)は Hadoop / Spark / Hive / Presto / HBase 等のビッグデータフレームワークをマネージドで実行するクラスター。EC2 ベースで構築され、TB〜PB 級のデータ処理に対応する。データレイクのバッチ ETL・機械学習前処理・ビッグデータ分析に活用。
2. 何ができるか
- 多数のフレームワーク:Hadoop / Spark / Hive / Presto / HBase / Flink 等
- EC2 / Fargate / EKS で実行
- スポットインスタンス活用:コスト削減
- S3 統合:EMRFS で S3 を HDFS のように扱う
- 自動スケーリング:負荷に応じて拡張
3. 特徴
| 観点 | 特徴 |
|---|---|
| 追加料金 | EMR + EC2 / EKS / Fargate 料金 |
| エンジン | Spark / Hadoop / Presto / Hive 等 |
| 永続クラスター / トランジエント:用途別 | |
| 対応 | TB〜PB 級 |
4. 仕組み
EMR は マスターノード + コアノード + タスクノード のクラスター構成。
ノード種別
- Master:管理ノード
- Core:データ + 計算
- Task:計算のみ(スポット推奨)
5. ユースケース
ユースケース 1:バッチ ETL
TB 級データの夜間処理。
ユースケース 2:機械学習前処理
SageMaker への学習データ加工。
ユースケース 3:ログ分析
大規模ログのバッチ集計。
6. 関連用語
7. 関連サイト
🎓 試験での出題傾向
| 試験 | 重要度 | 主な出題パターン |
|---|---|---|
| CLF | 中 | ビッグデータの概念 |
| SAA | 中 | バッチ処理設計 |
| DVA | 低 | 出題稀 |
| SOA | 低 | 出題ほぼなし |