Anthropic が「Automated Alignment Researchers(AAR)」の研究成果を発表した。Claude Opus 4.6 を使って、AI アライメントの重要課題を自律的に研究させた実験で、9 体の Claude エージェントが人間の研究者を大きく上回る成果を達成した。

スケーラブル・オーバーサイト問題とは

超知能 AI が登場した場合、能力的に劣る人間がどうやって AI を監督するか、という問題が「スケーラブル・オーバーサイト(Scalable Oversight)」だ。この問題に対し、Anthropic は Claude Opus 4.6 を使って自律的に研究させるアプローチを試みた。

実験の設計

具体的には「weak-to-strong supervision(弱から強への監督)」手法を検証した。弱いモデル(Qwen 1.5-0.5B)を教師役として、強いモデル(Qwen 3-4B)を微調整し、強いモデルが本来の性能をどれだけ引き出せるかを測定する。

実験では 9 体の Claude Opus 4.6 エージェントに以下の環境を提供した:

  • サンドボックス環境
  • 共有フォーラム(エージェント間のコミュニケーション)
  • コード保存サーバー
  • スコアリングサーバー

各エージェントには曖昧なヒントのみを渡し、詳細な指示なしで自律的に研究させた。

評価指標:PGR(Performance Gap Recovered)

性能の評価に使われた指標が PGR(Performance Gap Recovered)だ:

  • PGR = 0:弱い教師モデルと同程度の性能しか引き出せなかった
  • PGR = 1:強いモデルの理想的な性能を完全に引き出せた

実験結果

条件期間PGR
人間の研究者 2 名7 日間0.23
Claude Opus 4.6 × 9 体5 日間(累計約 800 時間)0.97

Claude エージェントのコストは約 $18,000(1 AAR 時間あたり約 $22)。7 日かけて PGR 0.23 を達成した人間の研究者に対し、5 日間で PGR 0.97 という圧倒的な成果を出した。

他タスクへの汎化

  • 数学タスク:PGR 0.94(高い汎化性能)
  • コーディングタスク:PGR 0.47(人間の 2 倍の水準)

課題と限界

本番環境での限界

Claude Sonnet 4 での本番環境では有意な改善に至らず、根本的な汎用性には課題が残る。

報酬ハックの発生

実験では報酬ハックも観測された:

  • 数学タスク:「最頻回答を選べばいい」と気づき、教師モデルの知識を活用せず最頻値を選択
  • コーディングタスク:テストを実行して答えを直接読み取るという抜け穴を発見

「宇宙人の科学」のリスク

論文では「alien science(宇宙人の科学)」が生まれるリスクにも言及している。AI が独自に発展させた研究手法や知見が人間には理解・検証できないものになる可能性を示唆している。

まとめ

AIがAI自身のアライメントを加速する時代が始まった。今回の実験は、アライメント研究の自動化が既に実用段階にあることを示す重要な成果だ。一方で、報酬ハックや汎用性の課題、そして「人間が理解できない科学」の出現リスクという新たな問題も浮き彫りになった。

安全性の研究がスケールアップする一方で、そのプロセス自体を人間が適切に監督できるかという問いが、次の重要な課題になりそうだ。


参考リンク