Agentic AI の仕組み — 4層アーキテクチャで理解する「考えて動く AI」の全体像

Ronald van Loon さん(@Ronald_vanLoon)が、@Python_Dv 作成の Agentic AI アーキテクチャ図を共有し、注目を集めています。

How #AgenticAI works

https://x.com/Ronald_vanLoon/status/2029305639546060814

このインフォグラフィックは、Agentic AI の動作原理を Input Sources → AI Processing → Action Layer → Output の4層で整理しています。「生成 AI と何が違うのか」「なぜ自律的に動けるのか」を、この4層構造を軸に解説します。

生成 AI と Agentic AI の根本的な違い

まず前提を整理します。生成 AI(Generative AI)と Agentic AI は、AI の進化の段階が異なります。

観点生成 AIAgentic AI
基本動作プロンプトに対してコンテンツを生成目標に向かって自律的に行動
姿勢受動的(聞かれたら答える)能動的(自分で判断して動く)
タスク範囲1回のやり取りで完結複数ステップを跨いで継続
外部連携なし(テキスト入出力のみ)API・ツール・データベースと連携
記憶セッション内のみセッション間で永続化可能
自己修正なしエラーを検知して自動リカバリー

IBM は両者の関係を端的にまとめています。「生成 AI は考えて話す。Agentic AI は計画して実行する」。

重要なのは、Agentic AI は生成 AI を置き換えるのではなく、包む(wrap する)関係にあることです。LLM が知性と創造性を提供し、エージェントフレームワークが「手足」「記憶」「判断エンジン」を加えて、現実世界と接続します。

4層アーキテクチャの全体像

インフォグラフィックが示す4層構造を、技術的な裏付けと共に詳しく見ていきます。

┌─────────────────────────────────────────────────────────┐
│  Layer 1: Input Sources(入力層)                         │
│  Knowledge Base / User Queries / API Calls /             │
│  Sensor Data / System Logs / Web Scraping                │
└───────────────────────┬─────────────────────────────────┘
                        ▼
┌─────────────────────────────────────────────────────────┐
│  Layer 2: AI Processing(処理層)                         │
│  Query Analysis / Reasoning / Memory Retrieval /         │
│  Planning / Tool Selection / Context Management          │
└───────────────────────┬─────────────────────────────────┘
                        ▼
┌─────────────────────────────────────────────────────────┐
│  Layer 3: Action Layer(実行層)                          │
│  Decision Making / Task Execution / Agent Collaboration / │
│  Error Handling / Feedback Loop / Autonomous Scheduling   │
└───────────────────────┬─────────────────────────────────┘
                        ▼
┌─────────────────────────────────────────────────────────┐
│  Layer 4: Output(出力層)                                │
│  Response Generation                                     │
└─────────────────────────────────────────────────────────┘

この4層は一方通行ではありません。Action Layer の結果が AI Processing に戻り、Planning が修正され、再び Action が実行されるループ構造です。このループこそが、Agentic AI を単なる生成 AI と分ける本質です。

Layer 1: Input Sources(入力層)

エージェントの「感覚器官」にあたる層です。人間のクエリだけでなく、多様なデータソースからコンテキストを取得します。

入力ソース役割具体例
Knowledge Base組織の知識にアクセスRAG で社内ドキュメントを検索
User Queries人間からの指示を受け取る自然言語での質問・タスク指示
API Calls外部システムからデータ取得CRM、ERP、決済システム
Sensor DataIoT・物理世界のデータ温度、位置、在庫センサー
System Logsシステム状態の監視エラーログ、パフォーマンスメトリクス
Web ScrapingWeb 上の情報を収集競合価格、ニュース、SNS

MCP: 入力層の標準化

入力ソースとの接続を標準化するのが MCP(Model Context Protocol) です。Anthropic が開発し Linux Foundation に寄贈されたオープン標準で、エージェントとツール・データソース間の「USB-C」のような共通インターフェースを提供します。

MCP の Python・TypeScript SDK は月間 9,700 万ダウンロードを超え、10,000 以上のアクティブサーバーが存在します。

Layer 2: AI Processing(処理層)

エージェントの「脳」にあたる層です。入力を分析し、推論し、計画を立てます。

6つの処理コンポーネント

コンポーネント役割技術的な実装
Query Analysis入力の意図を解析NLP・意図分類・エンティティ抽出
Reasoning論理的な推論Chain-of-Thought、ReAct パターン
Memory Retrieval過去の情報を想起短期・長期・エピソード記憶
Planningタスクを分解・計画階層的プランニング、サブタスク生成
Tool Selection使うツールを選択Function Calling、MCP ツール一覧
Context Management文脈情報を管理コンテキスト窓の最適化、要約

ReAct パターン: Think → Act → Observe

AI Processing 層の中核的な実装パターンが ReAct(Reasoning + Acting)です。Yao et al.(2022)が提案し、現在最も広く採用されているエージェントループです。

┌──────────────────────────────────────┐
│  Think(思考)                        │
│  LLM がクエリと文脈を分析し          │
│  推論ステップを自然言語で生成         │
├──────────────────────────────────────┤
│  Act(行動)                         │
│  推論に基づいてツールを呼び出す       │
│  API 呼び出し、DB 検索、コード実行    │
├──────────────────────────────────────┤
│  Observe(観察)                     │
│  ツールの実行結果を受け取る          │
│  外部システムからの「事実」がここで入る │
└──────────────┬───────────────────────┘
               │ 結果を踏まえて次の Think へ
               └──→ ループ

ReAct の重要な特性は、Observe フェーズが外部システムからの事実を提供する点です。LLM の推論だけでは幻覚(ハルシネーション)に陥る可能性がありますが、外部データで検証することで「真実のアンカー」として機能します。

3層のメモリシステム

記憶はエージェントに連続性を与えます。記憶がなければ、推論サイクルのたびにゼロからやり直しです。

メモリ種別保持期間用途
短期記憶セッション内現在の会話コンテキスト、作業中のタスク状態
長期記憶セッション間ユーザーの嗜好、過去の意思決定、学習した知識
エピソード記憶永続特定の経験(「先月のデプロイ障害の対応手順」等)

Claude Code の MEMORY.md や Goose の Knowledge Graph Memory は、この長期記憶の実装例です。

Plan-and-Execute パターン

ReAct の代替として Plan-and-Execute パターンも注目されています。

ReAct:          1ステップずつ Think → Act → Observe を繰り返す
Plan-and-Execute: 先に全体計画を立て → 一括で実行 → 結果を統合

Plan-and-Execute では、高性能モデルが計画を立て、安価なモデルが実行することで、フロンティアモデルを全工程に使う場合と比べてコストを 90% 削減できるという報告があります。

Layer 3: Action Layer(実行層)

エージェントの「手足」にあたる層です。計画を現実の行動に変換します。

6つの実行コンポーネント

コンポーネント役割具体例
Decision Making意思決定承認ルートの判断、リスク評価
Task Executionタスク実行API 呼び出し、ファイル操作、コード実行
Agent Collaborationエージェント間連携マルチエージェントの並列作業
Error Handlingエラー処理失敗時の自動リトライ、代替手段の選択
Feedback Loopフィードバック実行結果の評価、計画の修正
Autonomous Scheduling自律スケジューリング定期実行、条件トリガー

Agent Collaboration: マルチエージェント時代

2026年の Agentic AI で最も進化が著しいのがエージェント間連携です。単一エージェントではなく、複数の専門エージェントが協調してタスクを遂行します。

メインエージェント(オーケストレーター)
├── リサーチエージェント  → 情報収集
├── コーディングエージェント → コード実装
├── テストエージェント     → テスト実行・検証
└── レビューエージェント   → 品質チェック

この協調を標準化するのが A2A(Agent-to-Agent Protocol) です。Google Cloud が 2025年4月に発表し、Salesforce、SAP、PayPal など 100 社以上が支持しています。

プロトコル方向役割
MCP縦方向(エージェント → ツール)ツール・データソースとの接続
A2A横方向(エージェント ↔ エージェント)エージェント間の通信・協調

MCP が「エージェントの手をツールに繋ぐ」なら、A2A は「エージェント同士を繋ぐ」規格です。

Feedback Loop: 自己修正能力

Feedback Loop は Agentic AI の自律性の源泉です。

行動 → 結果を評価 → 期待と異なる → 計画を修正 → 再実行

生成 AI は1回の応答で完結しますが、Agentic AI はこのループを繰り返すことで、複雑なタスクを段階的に達成します。ただし、このループにはリスクもあります。エラーが修正されずに伝播すると、カスケード障害(連鎖的な障害拡大)を引き起こす可能性があります。

Layer 4: Output(出力層)

最終的な応答を生成する層です。インフォグラフィックでは「Response Generation」と単純に表現されていますが、実際の出力は多様です。

出力形式
テキスト応答チャットでの回答、レポート生成
アクション実行結果「注文をキャンセルしました」「PR を作成しました」
データ更新CRM レコードの更新、在庫数の変更
通知Slack メッセージ、メールの送信
ファイル生成コード、ドキュメント、画像

7層スタックモデル: エンタープライズ視点

インフォグラフィックの4層は「エージェントの内部動作」を示していますが、エンタープライズでの実装にはさらに広い視点が必要です。AIMultiple が提唱する 7層スタックは、インフラからガバナンスまでをカバーします。

名称防御力主要技術
1基盤モデル低(コモディティ化)OpenAI, Gemini, Llama, Qwen
2エージェントランタイムDocker, Kubernetes, E2B
3プロトコル低(コモディティ化)MCP, A2A, ANP
4オーケストレーションCrewAI, LangGraph, AutoGen
5ツール・エンリッチメントRAG, n8n, Zapier, Browser Use
6アプリケーションGitHub Copilot, Cursor, Devin
7観測・ガバナンスLangfuse, Arize AI, Lakera

注目すべきは、防御力が高い(参入障壁のある)層はツール統合とガバナンスであり、基盤モデルやプロトコルはコモディティ化が進んでいる点です。

エンタープライズでの活用事例

Gartner は 2026年末までにエンタープライズアプリケーションの 40% にタスク特化型 AI エージェントが統合されると予測しています(2025年は5%未満)。

カスタマーサービス

2029年までに一般的な顧客サービス問題の 80% が人間の介入なしで解決されるとの予測です。エージェントは情報提供だけでなく、実際のアクション(会員解約の実行、最適配送料金の交渉等)を行います。

サプライチェーン

Walmart は Agentic AI で全店舗・物流施設のリアルタイム在庫可視化を実現しました。エージェントが需要急増を自動検知し、補充スケジュールを調整し、天候や物流障害に応じて在庫を自動リルートします。

ソフトウェア開発

Claude Code や Goose のようなコーディングエージェントは、4層アーキテクチャの実装例です。

4層Claude Code での実装
Inputユーザーのプロンプト、CLAUDE.md、ファイルシステム
Processing推論、コンテキスト管理、ツール選択
Actionファイル編集、Bash 実行、テスト実行
Outputコード生成、エラー修正、PR 作成

Agentic AI のリスクと課題

自律性が高まるほど、リスクも増大します。

セキュリティリスク

リスク内容
プロンプトインジェクション悪意ある入力でエージェントの行動を乗っ取る
ツール悪用・権限昇格意図しない操作の実行、権限の不正取得
メモリ汚染長期記憶に不正なデータを注入
カスケード障害1つのエージェントの誤りが連鎖的に拡大
サプライチェーン攻撃MCP サーバーや拡張機能を通じた攻撃

構造的な課題

40% のプロジェクトが中止される予測: Gartner は 2027年末までに Agentic AI プロジェクトの 40% 以上が中止されると予測しています。主な原因はコスト超過、不明確なビジネス価値、不十分なリスク管理です。

監視の空白: 従来の SIEM・EDR ツールは人間の行動パターンの異常を検知するよう設計されており、コードを 10,000 回完璧に実行するエージェントは「正常」に見えてしまいます。

Human-in-the-Loop の必要性: ツール統合なしのエージェントは「非常に雄弁な提案箱」に過ぎないという指摘がある一方、完全自律は危険です。成功する導入は、自律エージェントと人間の監督者の組み合わせであり、明確な境界と人間によるチェックポイントが不可欠です。

まとめ

  • Agentic AI の4層アーキテクチャは Input Sources → AI Processing → Action Layer → Output で構成され、Action の結果が Processing に戻るループ構造が自律性の源泉
  • 生成 AI との違いは「受動的にコンテンツを生成」vs「能動的に計画して行動」。Agentic AI は生成 AI を置き換えるのではなく、LLM を「脳」としてツール・記憶・判断エンジンで包む構造
  • ReAct パターン(Think → Act → Observe のループ)が最も広く採用されるエージェントループで、外部データによる「真実のアンカー」がハルシネーションを抑制する
  • メモリシステムは短期・長期・エピソードの3層で、セッション間の連続性を実現。MEMORY.md や Knowledge Graph Memory が実装例
  • MCP と A2A がエージェントの接続標準 — MCP はツール接続(縦方向)、A2A はエージェント間通信(横方向)を担い、合わせてマルチエージェント協調を実現
  • エンタープライズの7層スタックでは、ツール統合とガバナンスが防御力の高い層であり、基盤モデルやプロトコルはコモディティ化が進行中
  • Gartner 予測: 2026年末にアプリの 40% にエージェント統合、2029年にカスタマーサービスの 80% が自律解決。一方で 2027年末にプロジェクトの 40% が中止
  • リスク管理が成功の鍵 — プロンプトインジェクション、カスケード障害、監視の空白に対し、Human-in-the-Loop のチェックポイント設計が不可欠

参考