Anthropic の自動アライメント研究者(AAR):AIがAIのアライメントを加速する時代
Anthropic が「Automated Alignment Researchers(AAR)」の研究成果を発表した。Claude Opus 4.6 を使って、AI アライメントの重要課題を自律的に研究させた実験で、9 体の Claude エージェントが人間の研究者を大きく上回る成果を達成した。 スケーラブル・オーバーサイト問題とは 超知能 AI が登場した場合、能力的に劣る人間がどうやって AI を監督するか、という問題が「スケーラブル・オーバーサイト(Scalable Oversight)」だ。この問題に対し、Anthropic は Claude Opus 4.6 を使って自律的に研究させるアプローチを試みた。 実験の設計 具体的には「weak-to-strong supervision(弱から強への監督)」手法を検証した。弱いモデル(Qwen 1.5-0.5B)を教師役として、強いモデル(Qwen 3-4B)を微調整し、強いモデルが本来の性能をどれだけ引き出せるかを測定する。 実験では 9 体の Claude Opus 4.6 エージェントに以下の環境を提供した: サンドボックス環境 共有フォーラム(エージェント間のコミュニケーション) コード保存サーバー スコアリングサーバー 各エージェントには曖昧なヒントのみを渡し、詳細な指示なしで自律的に研究させた。 評価指標:PGR(Performance Gap Recovered) 性能の評価に使われた指標が PGR(Performance Gap Recovered)だ: PGR = 0:弱い教師モデルと同程度の性能しか引き出せなかった PGR = 1:強いモデルの理想的な性能を完全に引き出せた 実験結果 条件 期間 PGR 人間の研究者 2 名 7 日間 0.23 Claude Opus 4.6 × 9 体 5 日間(累計約 800 時間) 0.97 Claude エージェントのコストは約 $18,000(1 AAR 時間あたり約 $22)。7 日かけて PGR 0.23 を達成した人間の研究者に対し、5 日間で PGR 0.97 という圧倒的な成果を出した。 ...