アライメント

概要超知能 AI が登場した場合に、能力的に劣る人間がどのようにして AI を監督・制御するかという問題。Anthropic の「Automated Alignment Researchers（AAR）」プロジェクトは、AI 自身がアライメント研究を加速させるという逆転的なアプローチでこの問題に取り組んだ。 Automated Alignment Researchers（AAR） Anthropic が 2026年4月に発表した研究成果。Claude Opus 4.6 を 9 体並列稼働させ、アライメントの重要課題「weak-to-strong supervision（弱から強への監督）」を自律的に研究させた。実験設計課題: 弱いモデル（Qwen 1.5-0.5B）を教師役として強いモデル（Qwen 3-4B）を微調整し、強いモデルの本来性能を引き出せるか環境: サンドボックス + 共有フォーラム + コード保存サーバー + スコアリングサーバー指示: 曖昧なヒントのみ、詳細な指示なし評価指標: PGR（Performance Gap Recovered）値意味 PGR = 0 弱い教師モデルと同程度の性能しか引き出せなかった PGR = 1 強いモデルの理想的な性能を完全に引き出せた結果条件期間 PGR 人間の研究者 2 名 7 日間 0.23 Claude Opus 4.6 × 9 体 5 日間（累計約 800 時間） 0.97 コスト: 約 $18,000（1 AAR 時間あたり約 $22）。 ...

Anthropic が「Automated Alignment Researchers（AAR）」の研究成果を発表した。Claude Opus 4.6 を使って、AI アライメントの重要課題を自律的に研究させた実験で、9 体の Claude エージェントが人間の研究者を大きく上回る成果を達成した。スケーラブル・オーバーサイト問題とは超知能 AI が登場した場合、能力的に劣る人間がどうやって AI を監督するか、という問題が「スケーラブル・オーバーサイト（Scalable Oversight）」だ。この問題に対し、Anthropic は Claude Opus 4.6 を使って自律的に研究させるアプローチを試みた。実験の設計具体的には「weak-to-strong supervision（弱から強への監督）」手法を検証した。弱いモデル（Qwen 1.5-0.5B）を教師役として、強いモデル（Qwen 3-4B）を微調整し、強いモデルが本来の性能をどれだけ引き出せるかを測定する。実験では 9 体の Claude Opus 4.6 エージェントに以下の環境を提供した：サンドボックス環境共有フォーラム（エージェント間のコミュニケーション）コード保存サーバースコアリングサーバー各エージェントには曖昧なヒントのみを渡し、詳細な指示なしで自律的に研究させた。評価指標：PGR（Performance Gap Recovered）性能の評価に使われた指標が PGR（Performance Gap Recovered）だ： PGR = 0：弱い教師モデルと同程度の性能しか引き出せなかった PGR = 1：強いモデルの理想的な性能を完全に引き出せた実験結果条件期間 PGR 人間の研究者 2 名 7 日間 0.23 Claude Opus 4.6 × 9 体 5 日間（累計約 800 時間） 0.97 Claude エージェントのコストは約 $18,000（1 AAR 時間あたり約 $22）。7 日かけて PGR 0.23 を達成した人間の研究者に対し、5 日間で PGR 0.97 という圧倒的な成果を出した。 ...