Glue
ETL(抽出、変換、ロード) パイプラインを視覚的に作成/実行
AWS データサービス連携:
- Athena: S3 上のデータに対して、クエリ(SQL)を利用してデータの分析を行うことができるサービス
- EMR:(Elastic MapReduce): Hadoop, Spart の実行
- Redshift Spectrum(スペクトル): ReadShift から S3 をクエリ
主要機能
データの検出と整理
- 複数のデータストアを統合して検索
- データを自動的に検出
- スキーマとアクセス許可を管理
- さまざまなデータソースに接続
分析用データの変換、準備、クリーニング
- データを視覚的に変換
- シンプルなジョブスケジューリングで複雑な ETL パイプラインを構築
- 転送中のストリーミングデータのクリーニングと変換
- 組み込みの機械学習によるデータの重複排除とクリーニング(FindMatch)
- 組み込みのジョブノートブック
- ETL コードの編集、デバッグ、テスト
- 機密データの定義、検出、修正
データパイプラインの構築とモニタリング
- 自動スケーリング(ワークロードに基づく)
- ジョブ自動化(イベントトリガー)
- ジョブの実行とモニタリング(Spark, Ray, CloudTail)
- ETL と統合アクティビティのワークフローを定義
コンポーネント
- コンソール
- Data Catalog
- クローラおよび分類子
- ETL オペレーション
- ストリーミング ETL
- ジョブシステム
- ビジュアル ETL コンポーネント