概要

Kevin Gu 氏(Third Layer CTO)が開発した Python 製 OSS ライブラリ。メタエージェントとタスクエージェントの二重構造で、エージェントのハーネス(プロンプト・ツール・オーケストレーション)を自律的に最適化する。24時間の自律最適化で SpreadsheetBench・TerminalBench 世界1位を達成。

基本情報

  • GitHub: kevinrgu/autoagent
  • ライセンス: MIT
  • 言語: Python
  • 依存: Docker, Python 3.10+, uv

ベンチマーク

ベンチマークスコア順位
SpreadsheetBench96.5%1位
TerminalBench(GPT-5スコア)55.1%1位

プロジェクト構成

agent.py          -- ハーネス本体(メタエージェントの編集対象)
program.md        -- メタエージェントへの方針指示(人間が編集)
tasks/            -- 評価タスク(Harbor フォーマット)

人間は program.md にゴールを書き、agent.py の改善はメタエージェントに任せる。

関連ページ

ソース記事