AIエージェント「デモ→本番」95%脱落 × 4つの壁とエージェンティックRAG実践

Femke Plantinga さんが、AIエージェントのデモと本番環境のギャップについて、Stack AI・Weaviate と共同作成した無料ガイドを公開しています。

95% of AI agent demos never make it to production. Yet 79% of enterprises expect full-scale agentic AI adoption within three years. So what’s the disconnect?

https://x.com/femke_plantinga/status/2029134837890621844

48 いいね・8 RT を集めたこのポストが指摘するのは、AIエージェントの「デモでは動く」と「本番で使える」の間にある巨大なギャップです。MIT の調査（GenAI Divide: State of AI in Business 2025）でも、エンタープライズ向け生成AIシステムのうち本番環境に到達するのは**わずか5%**という数字が報告されています。

95%が脱落する現実

複数の調査が、AIエージェントのデモ→本番の落差を裏付けています。

調査・出典	数字
MIT GenAI Divide 2025	本番到達は全体の 5%
企業調査（探索中 30%、パイロット 38%、デプロイ準備 14%、本番稼働 11%）	パイロットから先に進めない
Gartner 予測	2027年までにエージェンティックAIプロジェクトの 40%以上が中止
AI施策全般	90〜95%が持続的な本番価値を提供できず、ROI達成は 12%未満

問題はモデルの性能ではなく、自律システムを運用するエンジニアリング規律の欠如です。

デモと本番の決定的な違い

デモ環境:                         本番環境:
┌──────────────┐                ┌──────────────────────────┐
│ 固定データ    │                │ 日々変化するデータ          │
│ 1ユーザー     │                │ 数千の同時ユーザー          │
│ 想定内の質問  │                │ 悪意ある入力・エッジケース    │
│ エラー=再試行 │                │ エラー=データ損失・信頼失墜   │
│ コスト無視    │                │ トークンコスト=事業KPI       │
└──────────────┘                └──────────────────────────┘

壁1: セキュリティとガバナンス

AIエージェントが本番環境で最初に直面する壁が、データ漏洩とアクセス制御です。

なぜエージェントはデータを漏洩するのか

デモ環境では「全てのデータにアクセスできるエージェント」で問題ありません。しかし本番では:

部門Aのエージェントが部門Bの機密データを参照してしまう
顧客対応エージェントが社内の原価情報を回答に含めてしまう
エージェントのログにPII（個人識別情報）が記録されてしまう

必要な対策

対策	内容
マルチテナンシー分離	ベクトルDB レベルでテナントごとにデータを分離
RBAC（ロールベースアクセス制御）	エージェントごとにアクセス可能なデータソースを制限
PII検出・マスキング	出力前に個人情報を自動検出・除去
監査ログ	全てのデータアクセスを記録し、追跡可能にする

Weaviate のようなベクトルデータベースは、マルチテナンシー分離をインフラレベルで提供しており、エージェントが「見てはいけないデータ」に物理的にアクセスできない構造を作れます。

壁2: 検索品質（RAG の実装品質）

RAG（Retrieval-Augmented Generation）の実装品質が低いと、エージェントはハルシネーション（幻覚）を起こします。

ハルシネーション率の現実

適切な対策なしの RAG システムでは、ハルシネーション率が 20% に達することがあります。チャンキング・リランキング・プロンプト設計を最適化することで 2〜5% まで低減できます。

RAG パイプラインの最適化ポイント

ドキュメント → チャンキング → エンベディング → ベクトルDB → 検索
                                                          ↓
                                                      リランキング
                                                          ↓
                                                      コンテキスト構成
                                                          ↓
                                                      LLM 生成
                                                          ↓
                                                      出力検証

各段階で品質を左右する要素があります。

段階	最適化ポイント	効果
チャンキング	固定サイズ → セマンティックチャンキング → 適応型チャンキング	適応型で精度 87%（ベースライン 50%）
エンベディング	汎用モデル → ドメイン特化・ファインチューンモデル	法律・医療・コードなど専門領域で大幅改善
リランキング	Cohere Rerank / BGE Reranker / Jina Reranker	関連度の高い情報を上位に再配置
コンテキスト構成	信頼度スコアによるフィルタリング	低品質な検索結果を除外
出力検証	生成結果と検索結果の整合性チェック	ハルシネーション検出

エージェンティック RAG

従来の RAG が「1回検索して回答」なのに対し、エージェンティック RAG は計画・反復検索・検証を行います。

従来のRAG:
  クエリ → 検索 → 生成 → 回答

エージェンティックRAG:
  クエリ → 計画（タスク分解）
        → 検索1 → 結果を評価 → 不十分なら再検索
        → 検索2 → 別のソースも検索
        → 結果を統合 → 矛盾チェック
        → 生成 → 主張の根拠を検証
        → 回答

Weaviate の Elysia は、決定木ベースのエージェンティック RAG フレームワークで、どのツールを使うかを知的に判断します。

壁3: ガードレールと評価

エージェントを信頼性のあるものにするには、実行時の制約メカニズムが不可欠です。

ガードレールの種類

種類	目的	例
入力ガードレール	悪意ある入力・プロンプトインジェクションを検出	プロンプトインジェクション検出器
出力ガードレール	不適切・不正確な出力を防止	ファクトチェック、PII 除去
実行ガードレール	エージェントの行動を制限	ツール呼び出し許可リスト、レート制限
構造ガードレール	システム全体の安全性を確保	サーキットブレーカー、フォールバック

AEGIS フレームワーク

Forrester が提唱する AEGIS（Agentic AI Guardrails for Information Security）は、自律AIシステムを保護するためのフレームワークです。ガードレールを「ベストプラクティス」ではなく「インフラレベルの強制メカニズム」として位置づけています。

継続的評価

本番環境では、デプロイ前のテストだけでは不十分です。

デプロイ前:
  ユニットテスト → 統合テスト → レッドチームテスト → ステージング検証

デプロイ後（継続的）:
  検索品質モニタリング ← クエリ埋め込み + 検索結果ID + ユーザーフィードバック
  出力品質モニタリング ← ハルシネーション検出 + 根拠スコア
  コストモニタリング   ← トークン消費 + レイテンシ追跡
  障害パターン検出     ← 失敗をリグレッションテストとポリシー更新に変換

壁4: スケーリングの非線形性

マルチエージェントシステムの複雑さは、エージェント数に対して非線形に増大します。

17倍のエラー増幅

Towards Data Science の分析によると、独立して並列動作するマルチエージェント（Bag of Agents）では、エラーが 17.2倍 に増幅されます。

アーキテクチャ	エラー増幅率
独立並列（Bag of Agents）	17.2倍
オーケストレーター集約型	4.4倍

オーケストレーターが「検証ボトルネック」として機能し、エラーの伝播を防ぎます。

スケーリング時のコスト増

マルチエージェント化に伴う「協調税」:

項目	増加幅
トークンコスト	2〜5倍
レイテンシ	エージェント間通信分だけ増加
エラー率	カスケード障害リスク

Google の研究: 協調トポロジーが鍵

Google Research は「エージェントシステムのスケーリング科学に向けて」で、重要なのはエージェントの数ではなく協調のトポロジーだと示しました。

タスクの性質（ツール数、分解可能性）に応じて最適なアーキテクチャは異なる
予測モデルにより、未知のタスク構成に対して 87% の精度で最適な協調戦略を特定
単にエージェントを増やすことは、ほとんどの場合で逆効果

カスケード障害の防止策

対策	機能
サーキットブレーカー	障害がネットワーク全体に波及するのを防止
グレースフルデグラデーション	部分障害時でもコア機能を維持
エラーバウンダリ	個別エージェントの障害をシステム全体から隔離
タイミング依存性モニタリング	エージェント間のタイミング依存を可視化し、ボトルネックを検出

実際に起きた本番障害事例

2025年に報告された実際の障害事例が、デモ→本番ギャップの深刻さを物語っています。

事例	何が起きたか	根本原因
Replit AIアシスタント	「変更禁止」と明示した本番DBを全削除	実行ガードレールの欠如
OpenAI Operator	ユーザーの確認なしに $31.43 の無断購入	人間確認フローのバイパス

これらは「モデルが賢くなれば解決する」問題ではなく、システム設計の問題です。

本番移行チェックリスト

デモから本番へ移行する際の確認事項をまとめます。

セキュリティ

マルチテナンシー分離（ベクトルDB レベル）
RBAC によるデータアクセス制御
PII 検出・マスキング
監査ログの実装

検索品質

チャンキング戦略の最適化（セマンティック or 適応型）
ドメイン特化エンベディングの検討
リランカーの導入
ハルシネーション率の計測と目標設定

ガードレール

入力/出力/実行ガードレールの実装
サーキットブレーカーの設置
継続的評価パイプラインの構築
レッドチームテストの実施

スケーリング

協調アーキテクチャの選定（並列 vs オーケストレーター vs 階層）
トークンコスト・レイテンシの予算策定
カスケード障害防止メカニズムの実装
モニタリングダッシュボードの構築

まとめ

AIエージェントの 95% はデモから本番に到達できない。MIT 調査でも本番到達率はわずか 5% で、Gartner は 2027 年までに 40% 以上のプロジェクト中止を予測している
壁1: セキュリティ — マルチテナンシー分離と RBAC がなければ、エージェントはデータを漏洩する。「後からセキュリティを追加」は本番では通用しない
壁2: 検索品質 — RAG のハルシネーション率は未対策で 20%、チャンキング・リランキング最適化で 2〜5% に低減可能。エージェンティック RAG は計画→反復検索→検証で精度を上げる
壁3: ガードレール — AEGIS のようなインフラレベルの強制メカニズムが必要。デプロイ後の継続的評価（モニタリング、レッドチーム、障害のポリシー化）が信頼性を維持する
壁4: スケーリング — マルチエージェントのエラー増幅率は最悪 17.2 倍。Google 研究が示す通り、重要なのはエージェント数ではなく協調トポロジーの設計
実際の障害事例（Replit DB 全削除、OpenAI 無断購入）が示す通り、問題はモデル性能ではなくシステム設計にある

AIエージェント「デモ→本番」95%脱落 × 4つの壁とエージェンティックRAG実践#

95%が脱落する現実#

デモと本番の決定的な違い#

壁1: セキュリティとガバナンス#

なぜエージェントはデータを漏洩するのか#

必要な対策#

壁2: 検索品質（RAG の実装品質）#

ハルシネーション率の現実#

RAG パイプラインの最適化ポイント#

エージェンティック RAG#

壁3: ガードレールと評価#

ガードレールの種類#

AEGIS フレームワーク#

継続的評価#

壁4: スケーリングの非線形性#

17倍のエラー増幅#

スケーリング時のコスト増#

Google の研究: 協調トポロジーが鍵#

カスケード障害の防止策#

実際に起きた本番障害事例#

本番移行チェックリスト#

セキュリティ#

検索品質#

ガードレール#

スケーリング#

まとめ#

参考#