その他サービス・ 2026-05-06

Amazon EMR とは？Hadoop / Spark のマネージドビッグデータ基盤

Amazon EMR（Elastic MapReduce）は Hadoop / Spark / Hive / Presto / HBase 等のビッグデータフレームワークをマネージドで実行するクラスター。EC2 ベースで構築され、TB〜PB 級のデータ処理に対応する。データ...

#AWS #EMR #分析

Hadoop / Spark / Hive 等のビッグデータフレームワークをマネージドで実行する分析プラットフォーム。

1. 概要（端的に）

Amazon EMR（Elastic MapReduce）は Hadoop / Spark / Hive / Presto / HBase 等のビッグデータフレームワークをマネージドで実行するクラスター。EC2 ベースで構築され、TB〜PB 級のデータ処理に対応する。データレイクのバッチ ETL・機械学習前処理・ビッグデータ分析に活用。

2. 何ができるか

多数のフレームワーク：Hadoop / Spark / Hive / Presto / HBase / Flink 等
EC2 / Fargate / EKS で実行
スポットインスタンス活用：コスト削減
S3 統合：EMRFS で S3 を HDFS のように扱う
自動スケーリング：負荷に応じて拡張

3. 特徴

観点	特徴
追加料金	EMR + EC2 / EKS / Fargate 料金
エンジン	Spark / Hadoop / Presto / Hive 等
永続クラスター / トランジエント：用途別
対応	TB〜PB 級

4. 仕組み

EMR は マスターノード + コアノード + タスクノード のクラスター構成。

ノード種別

Master：管理ノード
Core：データ + 計算
Task：計算のみ（スポット推奨）

5. ユースケース

ユースケース 1：バッチ ETL

TB 級データの夜間処理。

ユースケース 2：機械学習前処理

SageMaker への学習データ加工。

ユースケース 3：ログ分析

大規模ログのバッチ集計。

6. 関連用語

S3 — データレイク
Glue — Data Catalog 共有
Athena — アドホック分析の代替
Redshift — DWH

7. 関連サイト

Amazon EMR

🎓 試験での出題傾向

試験	重要度	主な出題パターン
CLF	中	ビッグデータの概念
SAA	中	バッチ処理設計
DVA	低	出題稀
SOA	低	出題ほぼなし