その他サービス

Amazon EMR とは?Hadoop / Spark のマネージド ビッグデータ基盤

Amazon EMR(Elastic MapReduce)は Hadoop / Spark / Hive / Presto / HBase 等のビッグデータフレームワークをマネージドで実行するクラスター。EC2 ベースで構築され、TB〜PB 級のデータ処理に対応する。データ...

Hadoop / Spark / Hive 等のビッグデータフレームワークをマネージドで実行する分析プラットフォーム。


1. 概要(端的に)

Amazon EMR(Elastic MapReduce)は Hadoop / Spark / Hive / Presto / HBase 等のビッグデータフレームワークをマネージドで実行するクラスター。EC2 ベースで構築され、TB〜PB 級のデータ処理に対応する。データレイクのバッチ ETL・機械学習前処理・ビッグデータ分析に活用。


2. 何ができるか

  • 多数のフレームワーク:Hadoop / Spark / Hive / Presto / HBase / Flink 等
  • EC2 / Fargate / EKS で実行
  • スポットインスタンス活用:コスト削減
  • S3 統合:EMRFS で S3 を HDFS のように扱う
  • 自動スケーリング:負荷に応じて拡張

3. 特徴

観点特徴
追加料金EMR + EC2 / EKS / Fargate 料金
エンジンSpark / Hadoop / Presto / Hive 等
永続クラスター / トランジエント:用途別
対応TB〜PB 級

4. 仕組み

EMR は マスターノード + コアノード + タスクノード のクラスター構成。

ノード種別

  • Master:管理ノード
  • Core:データ + 計算
  • Task:計算のみ(スポット推奨)

5. ユースケース

ユースケース 1:バッチ ETL

TB 級データの夜間処理。

ユースケース 2:機械学習前処理

SageMaker への学習データ加工。

ユースケース 3:ログ分析

大規模ログのバッチ集計。


6. 関連用語

  • S3 — データレイク
  • Glue — Data Catalog 共有
  • Athena — アドホック分析の代替
  • Redshift — DWH

7. 関連サイト


🎓 試験での出題傾向

試験重要度主な出題パターン
CLFビッグデータの概念
SAAバッチ処理設計
DVA出題稀
SOA出題ほぼなし