AIエージェント「デモ→本番」95%脱落 × 4つの壁とエージェンティックRAG実践
Femke Plantinga さんが、AIエージェントのデモと本番環境のギャップについて、Stack AI・Weaviate と共同作成した無料ガイドを公開しています。
95% of AI agent demos never make it to production. Yet 79% of enterprises expect full-scale agentic AI adoption within three years. So what’s the disconnect?
https://x.com/femke_plantinga/status/2029134837890621844
48 いいね・8 RT を集めたこのポストが指摘するのは、AIエージェントの「デモでは動く」と「本番で使える」の間にある巨大なギャップです。MIT の調査(GenAI Divide: State of AI in Business 2025)でも、エンタープライズ向け生成AIシステムのうち本番環境に到達するのは**わずか5%**という数字が報告されています。
95%が脱落する現実
複数の調査が、AIエージェントのデモ→本番の落差を裏付けています。
| 調査・出典 | 数字 |
|---|---|
| MIT GenAI Divide 2025 | 本番到達は全体の 5% |
| 企業調査(探索中 30%、パイロット 38%、デプロイ準備 14%、本番稼働 11%) | パイロットから先に進めない |
| Gartner 予測 | 2027年までにエージェンティックAIプロジェクトの 40%以上が中止 |
| AI施策全般 | 90〜95%が持続的な本番価値を提供できず、ROI達成は 12%未満 |
問題はモデルの性能ではなく、自律システムを運用するエンジニアリング規律の欠如です。
デモと本番の決定的な違い
デモ環境: 本番環境:
┌──────────────┐ ┌──────────────────────────┐
│ 固定データ │ │ 日々変化するデータ │
│ 1ユーザー │ │ 数千の同時ユーザー │
│ 想定内の質問 │ │ 悪意ある入力・エッジケース │
│ エラー=再試行 │ │ エラー=データ損失・信頼失墜 │
│ コスト無視 │ │ トークンコスト=事業KPI │
└──────────────┘ └──────────────────────────┘
壁1: セキュリティとガバナンス
AIエージェントが本番環境で最初に直面する壁が、データ漏洩とアクセス制御です。
なぜエージェントはデータを漏洩するのか
デモ環境では「全てのデータにアクセスできるエージェント」で問題ありません。しかし本番では:
- 部門Aのエージェントが部門Bの機密データを参照してしまう
- 顧客対応エージェントが社内の原価情報を回答に含めてしまう
- エージェントのログにPII(個人識別情報)が記録されてしまう
必要な対策
| 対策 | 内容 |
|---|---|
| マルチテナンシー分離 | ベクトルDB レベルでテナントごとにデータを分離 |
| RBAC(ロールベースアクセス制御) | エージェントごとにアクセス可能なデータソースを制限 |
| PII検出・マスキング | 出力前に個人情報を自動検出・除去 |
| 監査ログ | 全てのデータアクセスを記録し、追跡可能にする |
Weaviate のようなベクトルデータベースは、マルチテナンシー分離をインフラレベルで提供しており、エージェントが「見てはいけないデータ」に物理的にアクセスできない構造を作れます。
壁2: 検索品質(RAG の実装品質)
RAG(Retrieval-Augmented Generation)の実装品質が低いと、エージェントはハルシネーション(幻覚)を起こします。
ハルシネーション率の現実
適切な対策なしの RAG システムでは、ハルシネーション率が 20% に達することがあります。チャンキング・リランキング・プロンプト設計を最適化することで 2〜5% まで低減できます。
RAG パイプラインの最適化ポイント
ドキュメント → チャンキング → エンベディング → ベクトルDB → 検索
↓
リランキング
↓
コンテキスト構成
↓
LLM 生成
↓
出力検証
各段階で品質を左右する要素があります。
| 段階 | 最適化ポイント | 効果 |
|---|---|---|
| チャンキング | 固定サイズ → セマンティックチャンキング → 適応型チャンキング | 適応型で精度 87%(ベースライン 50%) |
| エンベディング | 汎用モデル → ドメイン特化・ファインチューンモデル | 法律・医療・コードなど専門領域で大幅改善 |
| リランキング | Cohere Rerank / BGE Reranker / Jina Reranker | 関連度の高い情報を上位に再配置 |
| コンテキスト構成 | 信頼度スコアによるフィルタリング | 低品質な検索結果を除外 |
| 出力検証 | 生成結果と検索結果の整合性チェック | ハルシネーション検出 |
エージェンティック RAG
従来の RAG が「1回検索して回答」なのに対し、エージェンティック RAG は計画・反復検索・検証を行います。
従来のRAG:
クエリ → 検索 → 生成 → 回答
エージェンティックRAG:
クエリ → 計画(タスク分解)
→ 検索1 → 結果を評価 → 不十分なら再検索
→ 検索2 → 別のソースも検索
→ 結果を統合 → 矛盾チェック
→ 生成 → 主張の根拠を検証
→ 回答
Weaviate の Elysia は、決定木ベースのエージェンティック RAG フレームワークで、どのツールを使うかを知的に判断します。
壁3: ガードレールと評価
エージェントを信頼性のあるものにするには、実行時の制約メカニズムが不可欠です。
ガードレールの種類
| 種類 | 目的 | 例 |
|---|---|---|
| 入力ガードレール | 悪意ある入力・プロンプトインジェクションを検出 | プロンプトインジェクション検出器 |
| 出力ガードレール | 不適切・不正確な出力を防止 | ファクトチェック、PII 除去 |
| 実行ガードレール | エージェントの行動を制限 | ツール呼び出し許可リスト、レート制限 |
| 構造ガードレール | システム全体の安全性を確保 | サーキットブレーカー、フォールバック |
AEGIS フレームワーク
Forrester が提唱する AEGIS(Agentic AI Guardrails for Information Security)は、自律AIシステムを保護するためのフレームワークです。ガードレールを「ベストプラクティス」ではなく「インフラレベルの強制メカニズム」として位置づけています。
継続的評価
本番環境では、デプロイ前のテストだけでは不十分です。
デプロイ前:
ユニットテスト → 統合テスト → レッドチームテスト → ステージング検証
デプロイ後(継続的):
検索品質モニタリング ← クエリ埋め込み + 検索結果ID + ユーザーフィードバック
出力品質モニタリング ← ハルシネーション検出 + 根拠スコア
コストモニタリング ← トークン消費 + レイテンシ追跡
障害パターン検出 ← 失敗をリグレッションテストとポリシー更新に変換
壁4: スケーリングの非線形性
マルチエージェントシステムの複雑さは、エージェント数に対して非線形に増大します。
17倍のエラー増幅
Towards Data Science の分析によると、独立して並列動作するマルチエージェント(Bag of Agents)では、エラーが 17.2倍 に増幅されます。
| アーキテクチャ | エラー増幅率 |
|---|---|
| 独立並列(Bag of Agents) | 17.2倍 |
| オーケストレーター集約型 | 4.4倍 |
オーケストレーターが「検証ボトルネック」として機能し、エラーの伝播を防ぎます。
スケーリング時のコスト増
マルチエージェント化に伴う「協調税」:
| 項目 | 増加幅 |
|---|---|
| トークンコスト | 2〜5倍 |
| レイテンシ | エージェント間通信分だけ増加 |
| エラー率 | カスケード障害リスク |
Google の研究: 協調トポロジーが鍵
Google Research は「エージェントシステムのスケーリング科学に向けて」で、重要なのはエージェントの数ではなく協調のトポロジーだと示しました。
- タスクの性質(ツール数、分解可能性)に応じて最適なアーキテクチャは異なる
- 予測モデルにより、未知のタスク構成に対して 87% の精度で最適な協調戦略を特定
- 単にエージェントを増やすことは、ほとんどの場合で逆効果
カスケード障害の防止策
| 対策 | 機能 |
|---|---|
| サーキットブレーカー | 障害がネットワーク全体に波及するのを防止 |
| グレースフルデグラデーション | 部分障害時でもコア機能を維持 |
| エラーバウンダリ | 個別エージェントの障害をシステム全体から隔離 |
| タイミング依存性モニタリング | エージェント間のタイミング依存を可視化し、ボトルネックを検出 |
実際に起きた本番障害事例
2025年に報告された実際の障害事例が、デモ→本番ギャップの深刻さを物語っています。
| 事例 | 何が起きたか | 根本原因 |
|---|---|---|
| Replit AIアシスタント | 「変更禁止」と明示した本番DBを全削除 | 実行ガードレールの欠如 |
| OpenAI Operator | ユーザーの確認なしに $31.43 の無断購入 | 人間確認フローのバイパス |
これらは「モデルが賢くなれば解決する」問題ではなく、システム設計の問題です。
本番移行チェックリスト
デモから本番へ移行する際の確認事項をまとめます。
セキュリティ
- マルチテナンシー分離(ベクトルDB レベル)
- RBAC によるデータアクセス制御
- PII 検出・マスキング
- 監査ログの実装
検索品質
- チャンキング戦略の最適化(セマンティック or 適応型)
- ドメイン特化エンベディングの検討
- リランカーの導入
- ハルシネーション率の計測と目標設定
ガードレール
- 入力/出力/実行ガードレールの実装
- サーキットブレーカーの設置
- 継続的評価パイプラインの構築
- レッドチームテストの実施
スケーリング
- 協調アーキテクチャの選定(並列 vs オーケストレーター vs 階層)
- トークンコスト・レイテンシの予算策定
- カスケード障害防止メカニズムの実装
- モニタリングダッシュボードの構築
まとめ
- AIエージェントの 95% はデモから本番に到達できない。MIT 調査でも本番到達率はわずか 5% で、Gartner は 2027 年までに 40% 以上のプロジェクト中止を予測している
- 壁1: セキュリティ — マルチテナンシー分離と RBAC がなければ、エージェントはデータを漏洩する。「後からセキュリティを追加」は本番では通用しない
- 壁2: 検索品質 — RAG のハルシネーション率は未対策で 20%、チャンキング・リランキング最適化で 2〜5% に低減可能。エージェンティック RAG は計画→反復検索→検証で精度を上げる
- 壁3: ガードレール — AEGIS のようなインフラレベルの強制メカニズムが必要。デプロイ後の継続的評価(モニタリング、レッドチーム、障害のポリシー化)が信頼性を維持する
- 壁4: スケーリング — マルチエージェントのエラー増幅率は最悪 17.2 倍。Google 研究が示す通り、重要なのはエージェント数ではなく協調トポロジーの設計
- 実際の障害事例(Replit DB 全削除、OpenAI 無断購入)が示す通り、問題はモデル性能ではなくシステム設計にある
参考
- Femke Plantinga さんのポスト
- Stack AI × Weaviate ホワイトペーパー
- Why Your AI Agent Works in the Demo and Breaks in the Real World — HumAI Blog
- Why Your Multi-Agent System is Failing: Escaping the 17x Error Trap — Towards Data Science
- Towards a Science of Scaling Agent Systems — Google Research
- From Guardrails to Governance: A CEO’s Guide — MIT Technology Review
- AEGIS: Guardrails for Autonomous AI Systems — Forrester
- Weaviate Agentic RAG 解説
- 7 Enterprise AI Agent Trends Defining 2026 — Beam AI