AutoAgent

概要 Kevin Gu 氏(Third Layer CTO)が開発した Python 製 OSS ライブラリ。メタエージェントとタスクエージェントの二重構造で、エージェントのハーネス(プロンプト・ツール・オーケストレーション)を自律的に最適化する。24時間の自律最適化で SpreadsheetBench・TerminalBench 世界1位を達成。 基本情報 GitHub: kevinrgu/autoagent ライセンス: MIT 言語: Python 依存: Docker, Python 3.10+, uv ベンチマーク ベンチマーク スコア 順位 SpreadsheetBench 96.5% 1位 TerminalBench(GPT-5スコア) 55.1% 1位 プロジェクト構成 agent.py -- ハーネス本体(メタエージェントの編集対象) program.md -- メタエージェントへの方針指示(人間が編集) tasks/ -- 評価タスク(Harbor フォーマット) 人間は program.md にゴールを書き、agent.py の改善はメタエージェントに任せる。 関連ページ 自己改善エージェント — AutoAgent が実装するパターン Claude Code — メタエージェントの実行環境として利用可能 ソース記事 AutoAgent — AIがAIを育てる自己改善エージェントOSSライブラリ — 2026-04-05

2026年4月6日 · 1 分

自己改善エージェント

概要 AI エージェントの構成一式(ハーネス: システムプロンプト・ツール・オーケストレーション)を、AI 自身が自律的に改善するパターン。人間はゴール(成功の定義)だけを与え、最適化はメタエージェントに任せる。 メタエージェントとタスクエージェント 役割 担当 メタエージェント(コーチ) 失敗トレースを分析し、ハーネスを書き換える タスクエージェント(選手) メタエージェントが設計したハーネスで実タスクを実行 最適化ループ メタエージェントがハーネスを書き換える タスクエージェントがタスクを実行する スコアを測定する 失敗トレースを分析する 改善なら採用、悪化なら元に戻す(繰り返し) モデル共感(Model Empathy) 同じモデル同士でペアリングすると、コーチは選手の失敗パターンを「自分ごと」として理解できる。同じ重みを共有しているため推論過程を正確に把握でき、異なるモデルの組み合わせより高い性能を示す。 創発的な改善行動 設計者が意図しなかった行動が自然に出現する: スポットチェック(小さな編集の高速検証) 強制検証ループ(自己修正ターンのバジェット組み込み) 自前テスト作成(ユニットテストの自律生成) サブエージェント生成(ドメイン別の役割分担) 関連ページ AutoAgent — このパターンを実装した OSS ライブラリ LLM Wiki パターン — AI による知識保守という関連パターン ソース記事 AutoAgent — AIがAIを育てる自己改善エージェントOSSライブラリ — 2026-04-05

2026年4月6日 · 1 分