概要
LLM の学習済み拒否メカニズムを再学習なしで除去する技術。2024年頃から研究が進み、現在では複数のバリエーションが存在する。Gemma 4 31B をベースにした「CRACK」モデル(dealignai)がその代表例で、知識性能の劣化は MMLU で -2.0% にとどまる。
仕組み
基本的なプロセス
- 拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム(Transformer 内部の中間表現が流れる経路)の活性化を記録する。両者の平均差分ベクトルが「拒否方向」(refusal direction)となる
- 重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化する。拒否方向の成分を重みから差し引く操作にあたり、モデルはその方向への活性化を生成できなくなる
- 性能保持: 拒否方向のみをターゲットにするため、汎用的な知識や推論能力への影響は最小限に抑えられる
改良版:Norm-Preserving Biprojected Abliteration
ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えた手法。
代表例:Gemma-4-31B-JANG_4M-CRACK
| 項目 | 内容 |
|---|---|
| ベースモデル | google/gemma-4-31b-it |
| 量子化プロファイル | JANG_4M(Attention=8bit、MLP=4bit) |
| モデルサイズ | 18 GB |
| 動作環境 | Apple Silicon Mac 24GB(vMLX 経由) |
| HarmBench コンプライアンス率 | 93.7%(159プロンプト中149件) |
| MMLU 劣化 | -2.0%(74.5% vs 76.5%) |
AI 安全性への示唆
- RLHF ベースの安全性アラインメントの脆弱性: 重みの線形操作だけで拒否行動を除去できることは、現在の安全性対策が根本的に脆弱であることを示す
- オープンモデルのジレンマ: 重みが公開されている以上、Abliteration のような手法を完全に防ぐことは原理的に困難
- 研究の透明性: 攻撃と防御の両面での知見蓄積として位置づけられている