スケーラブル・オーバーサイト

Thu, 23 Apr 2026 00:00:00 +0000

能力的に劣る人間が超知能 AI を監督するための研究領域。Anthropic の AAR プロジェクトはこの自動化を実証した

Anthropic の自動アライメント研究者（AAR）：AIがAIのアライメントを加速する時代

Wed, 15 Apr 2026 00:00:00 +0000

Anthropic が「Automated Alignment Researchers（AAR）」の研究成果を発表した。Claude Opus 4.6 を使って、AI アライメントの重要課題を自律的に研究させた実験で、9 体の Claude エージェントが人間の研究者を大きく上回る成果を達成した。

超知能 AI が登場した場合、能力的に劣る人間がどうやって AI を監督するか、という問題が「スケーラブル・オーバーサイト（Scalable Oversight）」だ。この問題に対し、Anthropic は Claude Opus 4.6 を使って自律的に研究させるアプローチを試みた。

具体的には「weak-to-strong supervision（弱から強への監督）」手法を検証した。弱いモデル（Qwen 1.5-0.5B）を教師役として、強いモデル（Qwen 3-4B）を微調整し、強いモデルが本来の性能をどれだけ引き出せるかを測定する。

実験では 9 体の Claude Opus 4.6 エージェントに以下の環境を提供した：

各エージェントには曖昧なヒントのみを渡し、詳細な指示なしで自律的に研究させた。

性能の評価に使われた指標が PGR（Performance Gap Recovered）だ：

条件	期間	PGR
人間の研究者 2 名	7 日間	0.23
Claude Opus 4.6 × 9 体	5 日間（累計約 800 時間）	0.97

Claude エージェントのコストは約 $18,000（1 AAR 時間あたり約 $22）。7 日かけて PGR 0.23 を達成した人間の研究者に対し、5 日間で PGR 0.97 という圧倒的な成果を出した。