BigQuery ARRAY/STRUCT で速度3倍・コスト25%削減 --- JOINを消す「データの持ち方」最適化

BigQuery ARRAY/STRUCT で速度 3 倍・コスト 25% 削減 — JOIN を消す「データの持ち方」最適化 @yoshitake_l 氏が X で共有した、BigQuery のデータ構造変更による劇的な改善結果が注目を集めています。 BigQuery でデータの持ち方を変えるだけで、クエリ処理速度を 3 倍に、クエリコストを 25% 削減できたので共有。試したクエリは、1:N の 2 つのテーブルの N 側を集計し、1 側と JOIN するシンプルなもの。使ったのは、ARRAY と STRUCT というデータ構造です。 「データの持ち方を変えるだけ」で速度 3 倍・コスト 25% 削減。SQL のチューニングではなく、テーブル設計の変更でこの結果を得ています。本記事では、なぜ ARRAY/STRUCT が JOIN より高速でコストが低いのか、その技術的な仕組みと実践方法を解説します。 なぜ JOIN は遅くて高いのか BigQuery の分散処理とシャッフル BigQuery の課金と速度の問題を理解するには、まず分散処理の仕組みを知る必要があります。 BigQuery の JOIN 処理の流れ: 1. テーブル A を複数のスロット(ワーカーノード)に分散読み込み 2. テーブル B を複数のスロットに分散読み込み 3. JOIN キーに基づいて、データを適切なスロットに「再配置」 → これが「シャッフル」 4. 各スロットでマッチング処理を実行 5. 結果を統合 問題: ステップ 3 のシャッフルが最大のボトルネック ├── スロット間のネットワーク通信が発生 ├── 大量の中間データが移動 └── 通信待ちの間、スロットが遊休状態になる BigQuery のオンデマンド課金は「スキャンしたバイト数」に比例します。JOIN では両方のテーブルのキー列と必要列をすべてスキャンするため、スキャン量が増えます。さらに、JOIN に必要なシャッフル処理が実行時間を大幅に伸ばします。 ...

2026年3月6日 · 6 分

生成AI(ジェネレーティブAI)

生成 AI(ジェネレーティブ AI/GenAI) Softbank データマネジメントと生成 AI Snowflake の製品管理担当幹部が考える「生成 AI×DWH」の新たな可能性 AI 活用で目指すべきは“脱 DWH” データレイクと DWH のデータを統合管理する真の“データ活用”時代の「レイクハウス」 生成 AI の開発力強化に向けたプロジェクト「GENIAC」を開始します (Generative AI Accelerator Challenge) Microsoft がデータ分析基盤「Fabric」発表、DWH・AI・ストリーム分析を統合 プログラミングコード生成 AI GitHub Copilot Amazon CodeWhisperer BigQuery 総合職の新卒 1 年目が、自社のデータ構造に合わせた SQL 生成 AI を作ってみた BigQuery からデータを抽出して生成 AI に分析してもらうまでが SQL で完結する手順 Amazon Redshift/Amazon Q generative SQL 自然言語から SQL のクエリ生成ができる Amazon Q generative SQL を触ってみた(プレビュー) [速報] Amazon Redshift クエリエディタが Amazon Q generative SQL の新機能が発表されました(プレビュー) #AWSreInvent Amazon Bedrock LLM: Claude 2 アンソロピックのクロード 2 Vs GPT-4(徹底比較) OpenAI の GPT シリーズと Bedrock の Claude をコスト比較してみた PingCAP/TiDB ChatGPT を搭載した革新的な SQL ジェネレータ「Chat2Query」とは ChatGPT × MySQL Shell:SQL を AI に考えてもらうプラグイン Azure Azure Open AI Service で SQL を生成するプロンプト例 日本語プロンプト指示で SQL 文を生成できるデータベース開発支援ツール - システムインテグレータ Fabric Microsoft Fabric とは Microsoft Fabric のデータ ウェアハウスとは Microsoft Fabric の組み込みの AI モデルで自然言語に対する解析・分析をしてみる Snowflake Gen AI と LLM をデータに導入しよう AI 機能を使って、SQL なしで Snowflake のデータを分析する方法 Snowpark Container Services:Snowflake で洗練された生成 AI とフルスタック アプリを安全に展開して実行する Snowflake Cortex で AI を数秒で使用 Snowflake Cortex ML ベースの関数 Snowflake Cortex について調べてたら凄いワクワクしてきた! Morph https://www.morphdb.io/ データのための、Notion や Figma のようなツールをつくりたい Figma や Miro のように直感的なデータ分析体験を!Canvas 機能のご紹介

2024年2月2日 · 1 分