Abliteration

概要 LLM の学習済み拒否メカニズムを再学習なしで除去する技術。2024年頃から研究が進み、現在では複数のバリエーションが存在する。Gemma 4 31B をベースにした「CRACK」モデル（dealignai）がその代表例で、知識性能の劣化は MMLU で -2.0% にとどまる。仕組み基本的なプロセス拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム（Transformer 内部の中間表現が流れる経路）の活性化を記録する。両者の平均差分ベクトルが「拒否方向」（refusal direction）となる重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化する。拒否方向の成分を重みから差し引く操作にあたり、モデルはその方向への活性化を生成できなくなる性能保持: 拒否方向のみをターゲットにするため、汎用的な知識や推論能力への影響は最小限に抑えられる改良版：Norm-Preserving Biprojected Abliteration ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えた手法。代表例：Gemma-4-31B-JANG_4M-CRACK 項目内容ベースモデル google/gemma-4-31b-it 量子化プロファイル JANG_4M（Attention=8bit、MLP=4bit）モデルサイズ 18 GB 動作環境 Apple Silicon Mac 24GB（vMLX 経由） HarmBench コンプライアンス率 93.7%（159プロンプト中149件） MMLU 劣化 -2.0%（74.5% vs 76.5%） AI 安全性への示唆 RLHF ベースの安全性アラインメントの脆弱性: 重みの線形操作だけで拒否行動を除去できることは、現在の安全性対策が根本的に脆弱であることを示すオープンモデルのジレンマ: 重みが公開されている以上、Abliteration のような手法を完全に防ぐことは原理的に困難研究の透明性: 攻撃と防御の両面での知見蓄積として位置づけられている関連ページ Gemma 4 — Abliteration が適用されたベースモデル AI エージェント — エージェントと安全性の関係ソース記事 Gemma 4 31B の脱獄モデル「CRACK」登場 — Abliteration 技術でセーフティを除去 — 2026-04-06

Google の Gemma 4 31B モデルをベースに、安全性制限を除去した「Gemma-4-31B-JANG_4M-CRACK」が Hugging Face で公開された。開発元の dealignai は、Abliteration（アブリテレーション）と呼ばれる手法でモデルの拒否行動を除去した。知識性能の劣化は MMLU で -2.0% にとどまる。 Abliteration とは何か Abliteration は、LLM の学習済み拒否メカニズムを再学習なしで除去する手法だ。2024年頃から研究が進み、現在では複数のバリエーションが存在する。基本的な仕組みは以下の通り: 拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム（Transformer 内部の中間表現が流れる経路）の活性化を記録する。両者の平均差分ベクトルが「拒否方向」（refusal direction）となる重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化（orthogonalization）する。直感的には、拒否方向の成分を重みから差し引く操作にあたる。これにより、モデルはその方向への活性化を生成できなくなる性能保持: 拒否方向のみをターゲットにするため、モデルの汎用的な知識や推論能力への影響は最小限に抑えられる最近の改良版である Norm-Preserving Biprojected Abliteration では、ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えている。 CRACK モデルのスペック項目値ベースモデル google/gemma-4-31b-it アーキテクチャ Dense Transformer + Hybrid Sliding/Global Attention 量子化プロファイル JANG_4M（CRITICAL=8-bit, COMPRESS=4-bit）平均ビット数 5.1 bits モデルサイズ 18 GB ビジョンマルチモーダル対応（ビジョンエンコーダは量子化せず float16 を維持）フォーマット JANG v2（MLX ネイティブ safetensors） JANG_4M のビット割り当て JANG プロファイルの特徴は、アテンション層とMLP層で異なるビット精度を割り当てる点にある: CRITICAL（8-bit）: Attention の Q/K/V/O 重み、エンベディング COMPRESS（4-bit）: MLP の gate/up/down projection、その他の重み Dense モデルは MLP 部分の量子化耐性が高いため、この戦略により 18GB という実用的なサイズを実現している。 ...