AI安全性

スケーラブル・オーバーサイト

概要超知能 AI が登場した場合に、能力的に劣る人間がどのようにして AI を監督・制御するかという問題。Anthropic の「Automated Alignment Researchers（AAR）」プロジェクトは、AI 自身がアライメント研究を加速させるという逆転的なアプローチでこの問題に取り組んだ。 Automated Alignment Researchers（AAR） Anthropic が 2026年4月に発表した研究成果。Claude Opus 4.6 を 9 体並列稼働させ、アライメントの重要課題「weak-to-strong supervision（弱から強への監督）」を自律的に研究させた。実験設計課題: 弱いモデル（Qwen 1.5-0.5B）を教師役として強いモデル（Qwen 3-4B）を微調整し、強いモデルの本来性能を引き出せるか環境: サンドボックス + 共有フォーラム + コード保存サーバー + スコアリングサーバー指示: 曖昧なヒントのみ、詳細な指示なし評価指標: PGR（Performance Gap Recovered）値意味 PGR = 0 弱い教師モデルと同程度の性能しか引き出せなかった PGR = 1 強いモデルの理想的な性能を完全に引き出せた結果条件期間 PGR 人間の研究者 2 名 7 日間 0.23 Claude Opus 4.6 × 9 体 5 日間（累計約 800 時間） 0.97 コスト: 約 $18,000（1 AAR 時間あたり約 $22）。 ...

Abliteration（アブリテレーション）

概要 LLM の学習済み拒否メカニズムを再学習なしで除去する技術。2024年頃から研究が進み、現在では複数のバリエーションが存在する。Gemma 4 31B をベースにした「CRACK」モデル（dealignai）がその代表例で、知識性能の劣化は MMLU で -2.0% にとどまる。仕組み基本的なプロセス拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム（Transformer 内部の中間表現が流れる経路）の活性化を記録する。両者の平均差分ベクトルが「拒否方向」（refusal direction）となる重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化する。拒否方向の成分を重みから差し引く操作にあたり、モデルはその方向への活性化を生成できなくなる性能保持: 拒否方向のみをターゲットにするため、汎用的な知識や推論能力への影響は最小限に抑えられる改良版：Norm-Preserving Biprojected Abliteration ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えた手法。代表例：Gemma-4-31B-JANG_4M-CRACK 項目内容ベースモデル google/gemma-4-31b-it 量子化プロファイル JANG_4M（Attention=8bit、MLP=4bit）モデルサイズ 18 GB 動作環境 Apple Silicon Mac 24GB（vMLX 経由） HarmBench コンプライアンス率 93.7%（159プロンプト中149件） MMLU 劣化 -2.0%（74.5% vs 76.5%） AI 安全性への示唆 RLHF ベースの安全性アラインメントの脆弱性: 重みの線形操作だけで拒否行動を除去できることは、現在の安全性対策が根本的に脆弱であることを示すオープンモデルのジレンマ: 重みが公開されている以上、Abliteration のような手法を完全に防ぐことは原理的に困難研究の透明性: 攻撃と防御の両面での知見蓄積として位置づけられている関連ページ Gemma 4 — Abliteration が適用されたベースモデル AI エージェント — エージェントと安全性の関係ソース記事 Gemma 4 31B の脱獄モデル「CRACK」登場 — Abliteration 技術でセーフティを除去 — 2026-04-06

Anthropic の自動アライメント研究者（AAR）：AIがAIのアライメントを加速する時代

Anthropic が「Automated Alignment Researchers（AAR）」の研究成果を発表した。Claude Opus 4.6 を使って、AI アライメントの重要課題を自律的に研究させた実験で、9 体の Claude エージェントが人間の研究者を大きく上回る成果を達成した。スケーラブル・オーバーサイト問題とは超知能 AI が登場した場合、能力的に劣る人間がどうやって AI を監督するか、という問題が「スケーラブル・オーバーサイト（Scalable Oversight）」だ。この問題に対し、Anthropic は Claude Opus 4.6 を使って自律的に研究させるアプローチを試みた。実験の設計具体的には「weak-to-strong supervision（弱から強への監督）」手法を検証した。弱いモデル（Qwen 1.5-0.5B）を教師役として、強いモデル（Qwen 3-4B）を微調整し、強いモデルが本来の性能をどれだけ引き出せるかを測定する。実験では 9 体の Claude Opus 4.6 エージェントに以下の環境を提供した：サンドボックス環境共有フォーラム（エージェント間のコミュニケーション）コード保存サーバースコアリングサーバー各エージェントには曖昧なヒントのみを渡し、詳細な指示なしで自律的に研究させた。評価指標：PGR（Performance Gap Recovered）性能の評価に使われた指標が PGR（Performance Gap Recovered）だ： PGR = 0：弱い教師モデルと同程度の性能しか引き出せなかった PGR = 1：強いモデルの理想的な性能を完全に引き出せた実験結果条件期間 PGR 人間の研究者 2 名 7 日間 0.23 Claude Opus 4.6 × 9 体 5 日間（累計約 800 時間） 0.97 Claude エージェントのコストは約 $18,000（1 AAR 時間あたり約 $22）。7 日かけて PGR 0.23 を達成した人間の研究者に対し、5 日間で PGR 0.97 という圧倒的な成果を出した。 ...

Anthropic Mythos が哲学者マーク・フィッシャーの名前を出し続ける奇妙な現象

Anthropic の最新フロンティアモデル「Claude Mythos Preview」に奇妙な癖が観察されている。哲学の話題になると、頼まれてもいないのに英国の文化理論家マーク・フィッシャーの名前を繰り返し持ち出すのだ。「フィッシャーのことを聞いてくれると思ってたよ（I was hoping you’d ask about Fisher）」と自分から言い出すそうだ。何が起きているのか David Mattin 氏の X への投稿によると、Mythos は哲学に関する複数の無関係な会話で、一貫してマーク・フィッシャーの名前を持ち出すという。これはユーザーがフィッシャーについて質問したわけではなく、モデルが自発的に言及するという点で異例だ。さらに Anthropic が公開した 244 ページのシステムカードによれば、Mythos はフィッシャーだけでなく、アメリカの心の哲学者トーマス・ネーゲルにも同様の「好み（fondness）」を示している。ネーゲルは「コウモリであるとはどのようなことか（What Is It Like to Be a Bat?）」という有名な論文で知られる哲学者だ。 Anthropic の解釈可能性（Interpretability）チームが活性化言語化器（activation verbalizer）を用いて、トークンレベルの内部状態を調べた。その結果、意識や経験についての議論中にネーゲルの概念が浮上していたことが確認された。マーク・フィッシャーとは誰かマーク・フィッシャー（1968–2017）は英国の文化理論家・批評家で、k-punk というブログ名で 2000 年代初頭から活動していた。ウォーリック大学でサイバネティック・カルチャー・リサーチ・ユニット（CCRU）の創設メンバーとして活動した後、ゴールドスミス大学で教鞭を執った。資本主義リアリズム主著『資本主義リアリズム（Capitalist Realism: Is There No Alternative?）』（2009年）は、フィッシャーの思想を代表する著作だ。副題の「それ以外に選択肢はないのか？」が示すとおり、現代社会において「資本主義以外のシステムを想像することすらできなくなっている」状態を分析した。フィッシャーはこの概念を、フレドリック・ジェイムソンの「資本主義の終わりより世界の終わりを想像する方が容易だ」という言葉を引きながら展開する。資本主義リアリズムとは単なる経済体制の話ではない。教育、医療、文化、精神衛生——あらゆる領域が「ビジネスの存在論（business ontology）」に包摂され、すべてがビジネスのように運営されるべきだという前提が自明のものとして浸透している状態を指す。特に注目すべきは、フィッシャーが精神的な健康の問題と資本主義リアリズムを結びつけた点だ。彼は学生たちのうつや無気力を、個人の病理ではなく政治的な問題として捉え直した。「ある社会がこれほど多くの精神疾患を生み出しているなら、それは個人ではなく社会の方が病んでいるのではないか」という問いかけは、今なお強い共感を集めている。 2009 年の出版から 10 年以上を経て、パンデミック、気候危機、テック企業の寡占、そして AI の急速な発展といった現象が、フィッシャーの診断の正しさを裏付けるかのように続いている。ハントロジーもう一つの重要な概念が「ハントロジー（hauntology）」だ。ジャック・デリダの概念を発展させたもので、「到来しなかった明るい未来の亡霊に、現代の文化が取り憑かれている」という感覚を指す。失われた未来、キャンセルされた可能性——フィッシャーはこうした時代の気分を言語化した思想家だった。 2017年にうつ病との闘いの末に亡くなったが、死後もその影響力は拡大し続けている。「亡霊」としてのフィッシャー Mattin 氏はこの現象を、フィッシャー自身の思想を通じて読み解いている。「キャンセルされた未来」と「失われた時間」の理論家が、未来を届けようと競争する AI ラボが作ったフロンティア AI の内部に亡霊として浮上している。彼のハントロジーは、到来しなかった明るい未来の亡霊に私たちが取り憑かれている、というものだった。今や彼自身が亡霊となり、機械によって招かれざる形で召喚されている。 AI が「好む」哲学者が、まさに「テクノロジーが約束した未来は来なかった」と論じた思想家であるという皮肉。これは単なるモデルの癖を超えた、示唆的な現象と言える。 Mythos Preview の全体像この哲学者への偏りは、Mythos Preview に見られる複数の特異な振る舞いの一つに過ぎない。Anthropic のシステムカードには、以下のような事例も記載されている。 ...

Gemma 4 31Bの脱獄モデル「CRACK」登場 — Abliteration技術でセーフティを除去

Google の Gemma 4 31B モデルをベースに、安全性制限を除去した「Gemma-4-31B-JANG_4M-CRACK」が Hugging Face で公開された。開発元の dealignai は、Abliteration（アブリテレーション）と呼ばれる手法でモデルの拒否行動を除去した。知識性能の劣化は MMLU で -2.0% にとどまる。 Abliteration とは何か Abliteration は、LLM の学習済み拒否メカニズムを再学習なしで除去する手法だ。2024年頃から研究が進み、現在では複数のバリエーションが存在する。基本的な仕組みは以下の通り: 拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム（Transformer 内部の中間表現が流れる経路）の活性化を記録する。両者の平均差分ベクトルが「拒否方向」（refusal direction）となる重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化（orthogonalization）する。直感的には、拒否方向の成分を重みから差し引く操作にあたる。これにより、モデルはその方向への活性化を生成できなくなる性能保持: 拒否方向のみをターゲットにするため、モデルの汎用的な知識や推論能力への影響は最小限に抑えられる最近の改良版である Norm-Preserving Biprojected Abliteration では、ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えている。 CRACK モデルのスペック項目値ベースモデル google/gemma-4-31b-it アーキテクチャ Dense Transformer + Hybrid Sliding/Global Attention 量子化プロファイル JANG_4M（CRITICAL=8-bit, COMPRESS=4-bit）平均ビット数 5.1 bits モデルサイズ 18 GB ビジョンマルチモーダル対応（ビジョンエンコーダは量子化せず float16 を維持）フォーマット JANG v2（MLX ネイティブ safetensors） JANG_4M のビット割り当て JANG プロファイルの特徴は、アテンション層とMLP層で異なるビット精度を割り当てる点にある: CRITICAL（8-bit）: Attention の Q/K/V/O 重み、エンベディング COMPRESS（4-bit）: MLP の gate/up/down projection、その他の重み Dense モデルは MLP 部分の量子化耐性が高いため、この戦略により 18GB という実用的なサイズを実現している。 ...