Abliteration（アブリテレーション）

LLM の安全性制限を再学習なしで除去する技術。拒否方向の特定と重みの直交化により、RLHF で学習された拒否行動を削除する

アブリテレーション / abliteration / 拒否方向除去 · 更新: 2026-04-16 · Abliteration AI安全性 LLM 量子化セーフティ

概要

LLM の学習済み拒否メカニズムを再学習なしで除去する技術。2024年頃から研究が進み、現在では複数のバリエーションが存在する。Gemma 4 31B をベースにした「CRACK」モデル（dealignai）がその代表例で、知識性能の劣化は MMLU で -2.0% にとどまる。

拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム（Transformer 内部の中間表現が流れる経路）の活性化を記録する。両者の平均差分ベクトルが「拒否方向」（refusal direction）となる
重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化する。拒否方向の成分を重みから差し引く操作にあたり、モデルはその方向への活性化を生成できなくなる
性能保持: 拒否方向のみをターゲットにするため、汎用的な知識や推論能力への影響は最小限に抑えられる

ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えた手法。