Anthropic の3エージェント・ハーネス設計: Claude が6時間でフルアプリを自律構築する仕組み

Anthropic の研究者 Prithvi Rajasekaran 氏が、Claude を使ってフルスタックアプリケーションを自律的に構築する「3エージェント・ハーネス」アーキテクチャを公開しました。人間の介入なしに6時間でプレイ可能なゲームエディタを完成させた事例とともに、その設計思想を解説します。 「ハーネス設計」とは何か 「ハーネス(harness)」とは、AI モデルを単体で走らせるのではなく、モデルの外側に構築する制御構造・オーケストレーションロジック全体を指します。具体的には、どのエージェントがどの順番で何を担当するか(役割分離)、エージェント間でどう情報をやり取りするか(契約の交渉)、いつ次に進みいつやり直すか(判定ループ)、何を使ってテストするか(ツール選択)といった設計要素が含まれます。 モデル自体の性能向上とは別の軸で、この制御層をどう設計するかが自律開発の品質を左右します。 背景: AI は自分に甘すぎる このアーキテクチャが生まれた核心的な課題は、AI モデルが自分の出力に対して甘い評価をしがちであるという点です。 「自分が生成した成果物を評価させると、エージェントは自信を持ってそれを称賛する傾向がある —— 人間の目から見れば明らかに品質が低い場合でさえ」(Rajasekaran 氏) この問題は、デザインのような正解/不正解が明確でない領域で特に顕著です。コードにおいても、理論上は正しさを検証できるはずですが、AI エージェントは自分のエラーをスルーしてしまいがちです。 解決策として採用されたのが、GAN(Generative Adversarial Network: 敵対的生成ネットワーク)に着想を得た分離アプローチ —— 「作る役割」と「評価する役割」を完全に分けるという設計です。 3エージェント・アーキテクチャ 最終的に構築されたハーネスは、以下の3つの専門エージェントで構成されるアーキテクチャになっています。 エージェント 役割 Planner 1〜4文のアイデアを完全な製品仕様に展開 Generator 機能ごとにスプリント方式で実装 Evaluator 実行中のアプリを Playwright でテスト・採点 flowchart TD A["ユーザー\n1〜4文のアイデア"] --> B["Planner\n製品仕様に自動展開"] B --> C["スプリント契約の交渉\n終了条件の事前合意"] C --> D["Generator\nReact/Vite/FastAPI で実装"] D --> E["Evaluator\nPlaywright MCP で実アプリテスト"] E -->|"採点: 製品深さ・機能性\nデザイン・コード品質"| F{合格?} F -->|"不合格\nバグ報告 + 改善指示"| D F -->|"合格"| G{次のスプリント?} G -->|"あり"| C G -->|"なし"| H["完成アプリ"] Planner: 仕様の自動展開 初期バージョンでは、生のプロンプトを渡すとモデルがタスクを過小評価する問題がありました。十分に考える前にビルドを開始してしまい、機能の薄いアプリが生成されていたのです。Planner はこの問題を解決するために追加されたエージェントで、短いアイデアを詳細な製品仕様に自動展開します。 ...

2026年3月27日 · 2 分

Browser Use CLI 2.0 — Playwrightを超える次世代ブラウザ自動化ツール

Browser Use CLI 2.0 がリリースされた。Playwright より速く、コストも半分。起動中の Chrome にそのまま接続できるこのツールは、AI エージェント時代のブラウザ自動化の本命になりそうだ。 Browser Use とは Browser Use は、AI エージェントのためのブラウザ自動化フレームワーク。GitHub スター数は 85,000 超で、Python ベースのオープンソースプロジェクトだ。 従来の Playwright がセレクタベースで要素を特定するのに対し、Browser Use はページ上のインタラクティブな要素をインデックスで管理する。セレクタのメンテナンスが不要で、AI エージェントとの相性が良い。 CLI 2.0 の主な特徴 2026年3月22日にリリースされた CLI 2.0 では、以下の改善が入った。 処理速度 2 倍・コスト半減 バックグラウンドデーモンがブラウザをコマンド間で維持するため、コマンド実行あたりのレイテンシは約 50ms。毎回ブラウザを起動する Playwright と比べて圧倒的に速い。 起動中の Chrome に接続可能 3 つのブラウザモードをサポートする: マネージド Chromium: ヘッドレスで自動管理 リアル Chrome: 既存のユーザープロファイル(Cookie、セッション)をそのまま利用 クラウドブラウザ: Browser Use Cloud API 経由 リアル Chrome モードでは、ログイン済みのセッションをそのまま使える。API が提供されていないサービスでも、ブラウザを直接操作して自動化できる。 AI コーディングツールとの統合 Claude Code、Cursor など主要な AI コーディングツールから直接利用できる。ターミナルからブラウザを操作するワークフローがシームレスになった。 セットアップ 1 2 3 4 5 6 7 8 # インストール(pip install browser-use でも可) uv pip install browser-use # Chromium のインストール browser-use install # 環境チェック browser-use doctor なぜ CDP 直叩きが効くのか Browser Use の高速性の鍵は、Chrome DevTools Protocol(CDP)を直接利用している点にある。 ...

2026年3月21日 · 1 分