Glue

  • AWS Glue の概要

  • ETL(抽出、変換、ロード) パイプラインを視覚的に作成/実行

AWS データサービス連携:

  • Athena: S3 上のデータに対して、クエリ(SQL)を利用してデータの分析を行うことができるサービス
  • EMR:(Elastic MapReduce): Hadoop, Spart の実行
  • Redshift Spectrum(スペクトル): ReadShift から S3 をクエリ

主要機能

  • データの検出と整理

    • 複数のデータストアを統合して検索
    • データを自動的に検出
    • スキーマとアクセス許可を管理
    • さまざまなデータソースに接続
  • 分析用データの変換、準備、クリーニング

    • データを視覚的に変換
    • シンプルなジョブスケジューリングで複雑な ETL パイプラインを構築
    • 転送中のストリーミングデータのクリーニングと変換
    • 組み込みの機械学習によるデータの重複排除とクリーニング(FindMatch)
    • 組み込みのジョブノートブック
    • ETL コードの編集、デバッグ、テスト
    • 機密データの定義、検出、修正
  • データパイプラインの構築とモニタリング

    • 自動スケーリング(ワークロードに基づく)
    • ジョブ自動化(イベントトリガー)
    • ジョブの実行とモニタリング(Spark, Ray, CloudTail)
    • ETL と統合アクティビティのワークフローを定義

コンポーネント

  • コンソール
  • Data Catalog
  • クローラおよび分類子
  • ETL オペレーション
  • ストリーミング ETL
  • ジョブシステム
  • ビジュアル ETL コンポーネント

ジョブ実行エンジン

Spark (AWS Glue ETL)

Ray (AWS Glue for Ray)