<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>アライメント on hdknr blog</title><link>https://hdknr.github.io/blogs/tags/%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88/</link><description>Recent content in アライメント on hdknr blog</description><generator>Hugo -- 0.157.0</generator><language>ja</language><lastBuildDate>Thu, 23 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://hdknr.github.io/blogs/tags/%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88/index.xml" rel="self" type="application/rss+xml"/><item><title>スケーラブル・オーバーサイト</title><link>https://hdknr.github.io/blogs/wiki/concepts/scalable-oversight/</link><pubDate>Thu, 23 Apr 2026 00:00:00 +0000</pubDate><guid>https://hdknr.github.io/blogs/wiki/concepts/scalable-oversight/</guid><description>能力的に劣る人間が超知能 AI を監督するための研究領域。Anthropic の AAR プロジェクトはこの自動化を実証した</description></item><item><title>Anthropic の自動アライメント研究者（AAR）：AIがAIのアライメントを加速する時代</title><link>https://hdknr.github.io/blogs/posts/2026/04/anthropic-%E3%81%AE%E8%87%AA%E5%8B%95%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E7%A0%94%E7%A9%B6%E8%80%85aarai%E3%81%8Cai%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%82%92%E5%8A%A0%E9%80%9F%E3%81%99%E3%82%8B%E6%99%82%E4%BB%A3/</link><pubDate>Wed, 15 Apr 2026 00:00:00 +0000</pubDate><guid>https://hdknr.github.io/blogs/posts/2026/04/anthropic-%E3%81%AE%E8%87%AA%E5%8B%95%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E7%A0%94%E7%A9%B6%E8%80%85aarai%E3%81%8Cai%E3%81%AE%E3%82%A2%E3%83%A9%E3%82%A4%E3%83%A1%E3%83%B3%E3%83%88%E3%82%92%E5%8A%A0%E9%80%9F%E3%81%99%E3%82%8B%E6%99%82%E4%BB%A3/</guid><description>&lt;p&gt;Anthropic が「Automated Alignment Researchers（AAR）」の研究成果を発表した。Claude Opus 4.6 を使って、AI アライメントの重要課題を自律的に研究させた実験で、9 体の Claude エージェントが人間の研究者を大きく上回る成果を達成した。&lt;/p&gt;
&lt;h2 id="スケーラブルオーバーサイト問題とは"&gt;スケーラブル・オーバーサイト問題とは&lt;/h2&gt;
&lt;p&gt;超知能 AI が登場した場合、能力的に劣る人間がどうやって AI を監督するか、という問題が「スケーラブル・オーバーサイト（Scalable Oversight）」だ。この問題に対し、Anthropic は Claude Opus 4.6 を使って自律的に研究させるアプローチを試みた。&lt;/p&gt;
&lt;h2 id="実験の設計"&gt;実験の設計&lt;/h2&gt;
&lt;p&gt;具体的には「weak-to-strong supervision（弱から強への監督）」手法を検証した。弱いモデル（Qwen 1.5-0.5B）を教師役として、強いモデル（Qwen 3-4B）を微調整し、強いモデルが本来の性能をどれだけ引き出せるかを測定する。&lt;/p&gt;
&lt;p&gt;実験では 9 体の Claude Opus 4.6 エージェントに以下の環境を提供した：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;サンドボックス環境&lt;/li&gt;
&lt;li&gt;共有フォーラム（エージェント間のコミュニケーション）&lt;/li&gt;
&lt;li&gt;コード保存サーバー&lt;/li&gt;
&lt;li&gt;スコアリングサーバー&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;各エージェントには曖昧なヒントのみを渡し、詳細な指示なしで自律的に研究させた。&lt;/p&gt;
&lt;h2 id="評価指標pgrperformance-gap-recovered"&gt;評価指標：PGR（Performance Gap Recovered）&lt;/h2&gt;
&lt;p&gt;性能の評価に使われた指標が PGR（Performance Gap Recovered）だ：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;PGR = 0&lt;/strong&gt;：弱い教師モデルと同程度の性能しか引き出せなかった&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;PGR = 1&lt;/strong&gt;：強いモデルの理想的な性能を完全に引き出せた&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="実験結果"&gt;実験結果&lt;/h2&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;条件&lt;/th&gt;
&lt;th&gt;期間&lt;/th&gt;
&lt;th&gt;PGR&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;人間の研究者 2 名&lt;/td&gt;
&lt;td&gt;7 日間&lt;/td&gt;
&lt;td&gt;0.23&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;Claude Opus 4.6 × 9 体&lt;/td&gt;
&lt;td&gt;5 日間（累計約 800 時間）&lt;/td&gt;
&lt;td&gt;0.97&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;Claude エージェントのコストは約 $18,000（1 AAR 時間あたり約 $22）。7 日かけて PGR 0.23 を達成した人間の研究者に対し、5 日間で PGR 0.97 という圧倒的な成果を出した。&lt;/p&gt;</description></item></channel></rss>