Glue AWS Glue の概要
ETL(抽出、変換、ロード) パイプラインを視覚的に作成/実行
AWS データサービス連携:
Athena: S3 上のデータに対して、クエリ(SQL)を利用してデータの分析を行うことができるサービス EMR:(Elastic MapReduce): Hadoop, Spart の実行 Redshift Spectrum(スペクトル): ReadShift から S3 をクエリ 主要機能 データの検出と整理
複数のデータストアを統合して検索 データを自動的に検出 スキーマとアクセス許可を管理 さまざまなデータソースに接続 分析用データの変換、準備、クリーニング
データを視覚的に変換 シンプルなジョブスケジューリングで複雑な ETL パイプラインを構築 転送中のストリーミングデータのクリーニングと変換 組み込みの機械学習によるデータの重複排除とクリーニング(FindMatch) 組み込みのジョブノートブック ETL コードの編集、デバッグ、テスト 機密データの定義、検出、修正 データパイプラインの構築とモニタリング
自動スケーリング(ワークロードに基づく) ジョブ自動化(イベントトリガー) ジョブの実行とモニタリング(Spark, Ray, CloudTail) ETL と統合アクティビティのワークフローを定義 コンポーネント コンソール Data Catalog クローラおよび分類子 ETL オペレーション ストリーミング ETL ジョブシステム ビジュアル ETL コンポーネント ジョブ実行エンジン Spark (AWS Glue ETL) PySpark Overview Ray (AWS Glue for Ray) Ray Ray Data: Scalable Datasets for ML AWS Glue での Ray ジョブの使用 AWS Glue Studio と AWS Glue でのノートブックの使用 AWS Glue for Ray のインタラクティブセッション (プレビュー) の開始方法 【プレビュー】AWS Glue で Ray が利用できるようになりました!#reinvent AWS Glue on Ray ではじめるデータ分析とそのパフォーマンス