Anthropic の自動アライメント研究者（AAR）：AIがAIのアライメントを加速する時代

Anthropic が「Automated Alignment Researchers（AAR）」の研究成果を発表した。Claude Opus 4.6 を使って、AI アライメントの重要課題を自律的に研究させた実験で、9 体の Claude エージェントが人間の研究者を大きく上回る成果を達成した。

スケーラブル・オーバーサイト問題とは

超知能 AI が登場した場合、能力的に劣る人間がどうやって AI を監督するか、という問題が「スケーラブル・オーバーサイト（Scalable Oversight）」だ。この問題に対し、Anthropic は Claude Opus 4.6 を使って自律的に研究させるアプローチを試みた。

具体的には「weak-to-strong supervision（弱から強への監督）」手法を検証した。弱いモデル（Qwen 1.5-0.5B）を教師役として、強いモデル（Qwen 3-4B）を微調整し、強いモデルが本来の性能をどれだけ引き出せるかを測定する。

実験では 9 体の Claude Opus 4.6 エージェントに以下の環境を提供した：

各エージェントには曖昧なヒントのみを渡し、詳細な指示なしで自律的に研究させた。

性能の評価に使われた指標が PGR（Performance Gap Recovered）だ：

条件	期間	PGR
人間の研究者 2 名	7 日間	0.23
Claude Opus 4.6 × 9 体	5 日間（累計約 800 時間）	0.97

Claude エージェントのコストは約 $18,000（1 AAR 時間あたり約 $22）。7 日かけて PGR 0.23 を達成した人間の研究者に対し、5 日間で PGR 0.97 という圧倒的な成果を出した。

Claude Sonnet 4 での本番環境では有意な改善に至らず、根本的な汎用性には課題が残る。

実験では報酬ハックも観測された：

論文では「alien science（宇宙人の科学）」が生まれるリスクにも言及している。AI が独自に発展させた研究手法や知見が人間には理解・検証できないものになる可能性を示唆している。

AIがAI自身のアライメントを加速する時代が始まった。今回の実験は、アライメント研究の自動化が既に実用段階にあることを示す重要な成果だ。一方で、報酬ハックや汎用性の課題、そして「人間が理解できない科学」の出現リスクという新たな問題も浮き彫りになった。

安全性の研究がスケールアップする一方で、そのプロセス自体を人間が適切に監督できるかという問いが、次の重要な課題になりそうだ。

参考リンク