AI エージェント

概要 単一の応答ではなく、複数ステップのタスクを自律実行する AI システム。Claude Code、OpenAI Codex、Cursor など複数ツールで実装されている。エージェント間協調、分散実行、メモリ管理が 2026 年の主要トレンド。 主な実装パターン シングルエージェント: 1つの LLM が計画→実行→検証を繰り返す(Claude Code など) マルチエージェント: 複数のエージェントが役割分担して協調(Agent Teams) メタエージェント: エージェントのハーネスを AI 自身が改善(AutoAgent) 品質保証 AI エージェントの出力品質を担保するにはハーネスエンジニアリングが必須。CLAUDE.md(入力層)、Hooks(検証層)、Agent Skills(ワークフロー層)の多層構造で品質を保証する。 関連ページ Claude Code — 代表的な AI コーディングエージェント ハーネスエンジニアリング — エージェント品質保証の設計パターン 自己改善エージェント — エージェントが自律的に改善するパターン MCP — エージェントと外部ツールの接続プロトコル ソース記事 AI エージェント QA 手法 — 2026-03 Agent Skills ガイド — 2026-02 Claude Code Agent Teams — 2026-03 AutoAgent — 2026-04

2026年4月6日 · 1 分

AutoAgent

概要 Kevin Gu 氏(Third Layer CTO)が開発した Python 製 OSS ライブラリ。メタエージェントとタスクエージェントの二重構造で、エージェントのハーネス(プロンプト・ツール・オーケストレーション)を自律的に最適化する。24時間の自律最適化で SpreadsheetBench・TerminalBench 世界1位を達成。 基本情報 GitHub: kevinrgu/autoagent ライセンス: MIT 言語: Python 依存: Docker, Python 3.10+, uv ベンチマーク ベンチマーク スコア 順位 SpreadsheetBench 96.5% 1位 TerminalBench(GPT-5スコア) 55.1% 1位 プロジェクト構成 agent.py -- ハーネス本体(メタエージェントの編集対象) program.md -- メタエージェントへの方針指示(人間が編集) tasks/ -- 評価タスク(Harbor フォーマット) 人間は program.md にゴールを書き、agent.py の改善はメタエージェントに任せる。 関連ページ 自己改善エージェント — AutoAgent が実装するパターン Claude Code — メタエージェントの実行環境として利用可能 ソース記事 AutoAgent — AIがAIを育てる自己改善エージェントOSSライブラリ — 2026-04-05

2026年4月6日 · 1 分

MCP (Model Context Protocol)

概要 Anthropic が主導する、AI モデルと外部システムの連携のためのオープンプロトコル。Claude Code、Cursor など主要 AI ツールで採用が進み、AWS、GitHub、Google Workspace など主要プラットフォームが MCP Server を公開。 特徴 ベンダーロックインを避けた相互運用性 ツール定義の標準化(JSON Schema ベース) サブミリ秒レイテンシでの動作 関連ページ AI エージェント — MCP を利用してツール連携するシステム Claude Code — MCP の主要クライアント実装 ソース記事 Agent Plugins for AWS — 2026-02 SD 2026年4月号 — 2026-03

2026年4月6日 · 1 分

OpenClaw

概要 深圳で開発されたオープンソース AI エージェント基盤。複数の LLM(Claude、Grok、Ollama)に対応し、MCP 統合により任意のツール連携が可能。 セキュリティ上の注意 中国 CNCERT が緊急セキュリティ警告を発出。デフォルト設定でローカルファイルシステム・環境変数・シェルへの広範なアクセスが有効になっている問題。コンテナ隔離、ネットワーク制限が必須。 関連ページ AI エージェント — OpenClaw が実装するパターン MCP — OpenClaw が採用するプロトコル ソース記事 OpenClaw セットアップ — 2026-03 OpenClaw 概要 — 2026-03 OpenClaw セキュリティ警告 — 2026-03

2026年4月6日 · 1 分

ハーネスエンジニアリング

概要 AI エージェント全盛時代に必須の設計手法。CLAUDE.md(入力層)、MEMORY.md(実行記録層)、Hooks(検証層)、Agent Skills(ワークフロー層)の4層で AI 出力の品質を決定論的に保証する。Anthropic 公式の推奨パターン。 4層構造 層 役割 実装 入力層 AI への指示・制約 CLAUDE.md 記録層 学習・実行履歴 MEMORY.md 検証層 出力の事前/事後チェック Hooks (PreToolUse/PostToolUse) ワークフロー層 構造化タスク定義 Agent Skills (SKILL.md) 関連ページ AI エージェント — ハーネスで品質保証される対象 Claude Code — ハーネスエンジニアリングの主要実装環境 自己改善エージェント — ハーネス自体を AI が改善するパターン ソース記事 ハーネスエンジニアリング — 2026-03 AI エージェント QA 手法 — 2026-03

2026年4月6日 · 1 分

自己改善エージェント

概要 AI エージェントの構成一式(ハーネス: システムプロンプト・ツール・オーケストレーション)を、AI 自身が自律的に改善するパターン。人間はゴール(成功の定義)だけを与え、最適化はメタエージェントに任せる。 メタエージェントとタスクエージェント 役割 担当 メタエージェント(コーチ) 失敗トレースを分析し、ハーネスを書き換える タスクエージェント(選手) メタエージェントが設計したハーネスで実タスクを実行 最適化ループ メタエージェントがハーネスを書き換える タスクエージェントがタスクを実行する スコアを測定する 失敗トレースを分析する 改善なら採用、悪化なら元に戻す(繰り返し) モデル共感(Model Empathy) 同じモデル同士でペアリングすると、コーチは選手の失敗パターンを「自分ごと」として理解できる。同じ重みを共有しているため推論過程を正確に把握でき、異なるモデルの組み合わせより高い性能を示す。 創発的な改善行動 設計者が意図しなかった行動が自然に出現する: スポットチェック(小さな編集の高速検証) 強制検証ループ(自己修正ターンのバジェット組み込み) 自前テスト作成(ユニットテストの自律生成) サブエージェント生成(ドメイン別の役割分担) 関連ページ AutoAgent — このパターンを実装した OSS ライブラリ LLM Wiki パターン — AI による知識保守という関連パターン ソース記事 AutoAgent — AIがAIを育てる自己改善エージェントOSSライブラリ — 2026-04-05

2026年4月6日 · 1 分

AutoAgent — AIがAIを育てる自己改善エージェントOSSライブラリ

AIエージェントの性能を左右する「ハーネス」を、AI自身が自律的に改善するOSSライブラリ AutoAgent が公開されました。ハーネスとは、システムプロンプト・ツール・オーケストレーションから成るエージェントの構成一式のことです。24時間の自律最適化だけで、SpreadsheetBench と TerminalBench の2つのベンチマークで世界1位を達成しています。 AutoAgent とは AutoAgent は Kevin Gu 氏(Third Layer CTO)が開発したPython製OSSライブラリで、「AIがAIを育てる」仕組みを提供します。 従来、AIエージェントを実用レベルにするには、システムプロンプトの調整、ツールの追加、実行フローの設計といった「ハーネス設計」が不可欠でした。この作業は専門知識を要し、1つのハーネスに何日もかかることがあります。AutoAgent はこのハーネス設計をAI自身に任せることで、人間の手動チューニングを超える精度を実現しました。 GitHub: kevinrgu/autoagent ライセンス: MIT 言語: Python ベンチマーク結果 ベンチマーク スコア 順位 SpreadsheetBench 96.5% 1位 TerminalBench(GPT-5スコア) 55.1% 1位 他のエントリーはすべて人間が手動チューニングしたものです。AutoAgentだけが自律的にこのスコアに到達しました。 仕組み: メタエージェントとタスクエージェント AutoAgent は2つのAIの役割分担で動作します。 メタエージェント(コーチ役) ハーネスを改良することが仕事。タスクエージェントの失敗トレースを読み、プロンプト・ツール・オーケストレーションを書き換えます。 タスクエージェント(選手役) 実際のタスクをこなすことが仕事。メタエージェントが設計したハーネスに従って作業を実行します。 最適化ループ 人間がやることは、AutoAgent の設定ファイル program.md にゴール(成功の定義)を書くだけです。あとはAIが24時間、以下のループを回します: メタエージェントがハーネスを書き換える タスクエージェントがタスクを実行する スコアを測定する 失敗トレースを分析し「なぜ失敗したか」を特定する 改善なら採用、悪化なら元に戻す 1に戻る これを数千の並列サンドボックス(隔離された実行環境)で同時実行します。 なぜAIのほうが上手く改善できるのか — 「モデル共感」 人間はどうしても自分の感覚でAIを設計してしまいます。しかし、AIは人間とは異なる思考回路で動いています。 同じモデル同士(例: Claude × Claude)でペアリングすると、コーチ(メタエージェント)は選手(タスクエージェント)の「失敗パターン」を自分ごととして理解できます。同じ重みを共有しているため、内側のモデルがどう推論するかを正確に把握できるのです。 AutoAgent の開発チームはこれを 「モデル共感(model empathy)」 と呼んでいます。実際に、Claude メタエージェント + Claude タスクエージェントの組み合わせは、Claude メタエージェント + GPT タスクエージェントの組み合わせよりも高い性能を示しました。 ...

2026年4月5日 · 2 分

claw-code-local — Claude Code風のAIコーディングエージェントをローカルLLMで動かす

Claude Code ライクなターミナル AI コーディングエージェントを、Anthropic API なしでローカル LLM で動かせる「claw-code-local」が登場しました。Rust で実装された軽量・高速なツールで、Ollama や LM Studio など好みの LLM バックエンドを自由に選べます。 claw-code-local とは claw-code-local は、Claude Code のアーキテクチャをクリーンルーム方式(既存コードを参照せず仕様から独自に再実装する手法)で作られた「Claw Code」のフォークです。ローカル LLM や任意の OpenAI 互換エンドポイントに接続できるよう拡張されています。 オリジナルの Claw Code は Rust で書かれたマルチプロバイダー API レイヤーを持っていましたが、実際のバイナリにはその機能が組み込まれていませんでした。claw-code-local はこの部分を修正し、Ollama、LM Studio、OpenAI、xAI など様々なプロバイダーに接続できるようにしています。 主な特徴 ローカル LLM 対応: Ollama、LM Studio、その他 OpenAI 互換エンドポイントで動作 Rust 実装: 軽量・高速なバイナリ マルチプラットフォーム: Windows、Linux、macOS に対応 コストゼロ: ローカル LLM を使えば API 費用が不要 プライバシー保護: コードが外部サーバーに送信されないため、機密情報の漏洩リスクを低減 セットアップ手順 1. リポジトリのクローンとビルド 1 2 3 git clone https://github.com/codetwentyfive/claw-code-local.git cd claw-code-local/rust cargo build -p rusty-claude-cli --release ビルド後のバイナリは以下に生成されます: ...

2026年4月5日 · 2 分

Anthropic Conway とは — 24時間稼働する常駐型AIエージェントの全貌

Anthropic が開発中の常駐型AIエージェント「Conway」のリーク情報が話題になっています。従来のチャットベースのやり取りとは異なり、24時間バックグラウンドで稼働し続けます。いわば「AI従業員」として機能する次世代エージェント環境です。 Conway の概要 Conway は、Anthropic が内部テスト中の常駐型(Always-On)AIエージェント環境です。TestingCatalog が 2026年4月にスクープし、その存在が明らかになりました。ユーザーのシステムやブラウザ上にサイドバーとして常駐し、ユーザーが操作していなくても裏側で継続的にタスクを実行できます。 Claude がこれまで提供してきた「対話型アシスタント」から、「自律的に業務を遂行するエージェント」への進化を示すプロダクトと位置づけられています。 主な特徴 Always-On(常時稼働) Conway の最大の特徴は、ユーザーが待機していなくてもバックグラウンドで常に稼働し続ける点です。従来の Claude のようにプロンプトを送って応答を待つワンショット型ではなく、永続的なプロセスとして動作します。 Webhook 連携 外部アプリケーションからの通知をトリガーに自動実行が可能です。Webhook セクションでは、外部サービスがインスタンスを起動するためのパブリック URL が提供されます。サービスレベルのトグルでトリガーのオン・オフを制御できます。例えば以下のようなユースケースが考えられます: メール受信時に自動で要約・分類 GitHub の Issue 作成をトリガーに調査を開始 Slack のメンション通知をきっかけに対応を自動化 ブラウザ操作と Claude Code 連携 Conway は Chrome ブラウザの操作が可能で、Web上のマルチステップタスクを自律的に処理できます。また、Claude Code(リーク情報では「Epitaxy」というコードネームも言及)との連携も備えており、コーディングタスクも自動化の範囲に含まれます。 独自拡張規格「.cnw」 Anthropic は Extensions エリアを準備しており、ユーザーがカスタムツール、UIタブ、コンテキストハンドラをインストールできるようになります。.cnw.zip ファイルのドロップに対応した独自の拡張パッケージ規格が用意されており、サードパーティのアドオンフレームワークとしての展開が見込まれます。 技術的なアーキテクチャ リーク情報から判明している Conway の構成要素は以下の通りです: コンポーネント 説明 独立 UI インスタンス サイドバー形式で常駐 Webhook エンドポイント 外部サービスからのイベント受信 ブラウザ操作 Chrome を通じた Web 操作 Claude Code 連携 コーディングタスクの自動実行 通知システム タスク完了等の通知送信 Extensions .cnw 形式のプラグイン機構 既存ツールとの違い 現在の Claude Desktop や Claude Code は、いずれもユーザーの入力をトリガーとして動作する対話型ツールです。Conway はこれらとは異なり、外部からのイベント(通知やスケジュール)をトリガーに自律的に動くエージェントとして位置づけられます。 ...

2026年4月3日 · 1 分

Onyx(旧 Danswer)完全ガイド — 無料で使えるオープンソース AI プラットフォーム

Onyx(旧 Danswer)は、社内のドキュメント・アプリ・人材をまとめて繋ぎ、どんな LLM とも連携できるオープンソースの AI プラットフォームです。Community Edition(CE)は MIT ライセンスで完全無料。セルフホストできるため、データを外部に出さずに AI チャットや RAG、エージェント機能を利用できます。 Onyx とは Onyx は企業向け AI アシスタント&検索プラットフォームです。Slack、GitHub、Confluence、Google Drive など 50 以上のコネクタで社内ナレッジを統合し、自然言語で質問するだけで必要な情報を引き出せます。 GitHub リポジトリ(onyx-dot-app/onyx)のスター数は 22,000 超で、活発に開発が続いています。 主な機能 チャット&RAG ハイブリッド検索: ベクトル検索とキーワード検索を組み合わせた高精度な情報検索 Agentic RAG: AI エージェントが検索クエリの生成・評価・再検索を自律的に繰り返し、複数ステップで情報を収集 Deep Research: 多段階のリサーチフローで詳細なレポートを生成 エージェント&ツール カスタムエージェント: 固有の指示・知識・アクションを持つ AI エージェントを構築可能 Web 検索: リアルタイムの Web 情報を取得 コード実行: サンドボックス内でコードを実行し、データ分析やグラフ描画が可能 画像生成: プロンプトに基づいた画像生成 音声モード: テキスト読み上げ&音声入力に対応 コネクタ(50 以上) Slack、GitHub、Confluence、Notion、Google Drive、Jira、Linear など主要サービスと連携。MCP(Model Context Protocol)経由のカスタムコネクタにも対応しています。 エディション比較 項目 Community Edition (CE) Enterprise Edition (EE) ライセンス MIT(無料) 商用ライセンス チャット・RAG・エージェント ✅ ✅ SSO(OIDC / SAML) — ✅ エアギャップ環境 — ✅ サポート コミュニティ 専用サポート Cloud 版も提供されており、セルフホストなしで試用できます。ビジネスプランは 1 ユーザーあたり月額 $16〜。 ...

2026年4月3日 · 2 分