量子化 | hdknr blog

Unsloth で Gemma 4 26B を極限まで量子化 — 16〜18GB VRAM で動く最強ローカル LLM

Google の最新 MoE モデル Gemma 4 26B-A4B を、個人 PC のローカル環境で最高効率で動かせるようになりました。Unsloth が公開した GGUF 量子化版は、精度を維持しながら劇的な軽量化を実現し、2026 年 4 月時点でローカル LLM の最前線に立っています。 Gemma 4 26B-A4B とは Gemma 4 は Google が 2026 年に公開したモデルファミリーで、E2B・E4B・26B-A4B・31B の 4 サイズが提供されています。 26B-A4B の「A4B」は Active 4B（推論時に活性化するパラメータ数の目安）を意味します。Mixture-of-Experts（MoE）アーキテクチャを採用しており、モデル全体のパラメータ数は 25.2B です。しかし 1 トークン生成ごとに動かすパラメータは 3.8B 相当に絞られるため、推論速度は 4B クラスと同等になります。指標 26B-A4B (MoE) 31B (Dense) 総パラメータ数 25.2B（モデル名は 26B） 31B 推論時アクティブパラメータ 3.8B 31B LMArena スコア (テキスト) 1441 1452 必要 VRAM (4-bit) 16〜18GB — 26B と名乗りながら推論速度は 4B クラスという驚異的な効率を実現しています。 ...

Abliteration（アブリテレーション）

概要 LLM の学習済み拒否メカニズムを再学習なしで除去する技術。2024年頃から研究が進み、現在では複数のバリエーションが存在する。Gemma 4 31B をベースにした「CRACK」モデル（dealignai）がその代表例で、知識性能の劣化は MMLU で -2.0% にとどまる。仕組み基本的なプロセス拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム（Transformer 内部の中間表現が流れる経路）の活性化を記録する。両者の平均差分ベクトルが「拒否方向」（refusal direction）となる重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化する。拒否方向の成分を重みから差し引く操作にあたり、モデルはその方向への活性化を生成できなくなる性能保持: 拒否方向のみをターゲットにするため、汎用的な知識や推論能力への影響は最小限に抑えられる改良版：Norm-Preserving Biprojected Abliteration ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えた手法。代表例：Gemma-4-31B-JANG_4M-CRACK 項目内容ベースモデル google/gemma-4-31b-it 量子化プロファイル JANG_4M（Attention=8bit、MLP=4bit）モデルサイズ 18 GB 動作環境 Apple Silicon Mac 24GB（vMLX 経由） HarmBench コンプライアンス率 93.7%（159プロンプト中149件） MMLU 劣化 -2.0%（74.5% vs 76.5%） AI 安全性への示唆 RLHF ベースの安全性アラインメントの脆弱性: 重みの線形操作だけで拒否行動を除去できることは、現在の安全性対策が根本的に脆弱であることを示すオープンモデルのジレンマ: 重みが公開されている以上、Abliteration のような手法を完全に防ぐことは原理的に困難研究の透明性: 攻撃と防御の両面での知見蓄積として位置づけられている関連ページ Gemma 4 — Abliteration が適用されたベースモデル AI エージェント — エージェントと安全性の関係ソース記事 Gemma 4 31B の脱獄モデル「CRACK」登場 — Abliteration 技術でセーフティを除去 — 2026-04-06

BitNet

概要 Microsoft Research が開発し 2026年にオープンソース（MIT ライセンス）化した 1-bit LLM 専用推論フレームワーク。すべての重みを -1、0、+1 の3値（log2(3) ≒ 1.58bit）で表現し、GPU なしで CPU 上での実用的な LLM 推論を実現する。GitHub では 37,000 以上のスターを獲得している。主な特徴 GPU 不要の CPU 推論 llama.cpp をベースに 1-bit 推論向けに最適化した C++ フレームワーク（bitnet.cpp）。専用カーネルにより CPU 上で高速に動作する。 x86 CPU: 従来比 2.37〜6.17 倍の高速化 ARM CPU（Apple Silicon 含む）: 従来比 1.37〜5.07 倍の高速化 100B パラメータモデルを単一 CPU で 5〜7 トークン/秒で処理可能省メモリ・省エネルギー BitNet b1.58 2B-4T モデルのメモリ使用量: わずか 0.4GB（同規模通常モデルの 1/7〜1/20）エネルギー削減: x86 で最大 82.2%、ARM で最大 70.0% 主要モデル：BitNet b1.58 2B-4T Hugging Face で公開されている初のオープンソースネイティブ 1-bit LLM。2.4B パラメータ、4T トークンで学習。同規模フル精度モデルと同等の性能（MMLU 約 52%）を達成。 ...

Microsoft BitNet完全オープンソース化：GPUなしで1000億パラメータLLMをCPUで動かす時代へ

Microsoftが開発した1-bit LLM推論フレームワーク「BitNet」が完全にオープンソース化されました。bitnet.cppを使えば、1000億パラメータ規模のLLMをGPUなしでCPU上で実行できます。 BitNetとは BitNetは、Microsoft Researchが開発した1-bit LLM（大規模言語モデル）専用の推論フレームワークです。従来のLLMが16bitや32bitの浮動小数点で重みを保持するのに対し、BitNetではすべての重みを -1、0、+1の3値（log2(3) ≒ 1.58bit）で表現します。 GitHub: microsoft/BitNet（37,000+スター）ライセンス: MIT License 技術レポート: BitNet b1.58 2B4T Technical Report 主な特徴 GPU不要のCPU推論 bitnet.cppは、llama.cpp（LLM向け軽量推論エンジン）をベースに1-bit推論向けに最適化されたC++フレームワークです。専用カーネルにより、ternary演算（3値演算）をCPU上で高速に実行します。 x86 CPU: 従来比 2.37〜6.17倍の高速化 ARM CPU: 従来比 1.37〜5.07倍の高速化 2026年1月のアップデートでさらに 1.15〜2.1倍の追加高速化を達成省エネルギー・省メモリエネルギー削減: x86 CPUで 71.9%〜82.2%、ARM CPUで 55.4%〜70.0% の削減メモリ使用量: BitNet b1.58 2B-4Tモデルはわずか 0.4GB（同規模の通常モデルは1.4〜4.8GB） BitNet b1.58 2B-4T モデル Microsoftが公開した初のオープンソースのネイティブ1-bit LLMです。パラメータ数: 24億（2.4B）学習データ: 4兆トークン（4T）アーキテクチャ: BitLinearレイヤーを組み込んだTransformerベース主な技術: RoPE（回転位置埋め込み）、Squared ReLU活性化関数、subln（サブレイヤー正規化）重み: ネイティブ1.58bit、活性化は8bit（W1.58A8）同規模のフル精度モデルと同等の性能を達成しています。なぜ重要なのかローカルAI・エッジコンピューティングの民主化これまで大規模LLMの実行には高価なGPUが必須でしたが、BitNetにより一般的なPCやエッジデバイスでも実用的な推論が可能になります。 GPU依存からの脱却 NVIDIA GPUへの依存度を大幅に下げられることで、AI開発・運用のコスト構造が変わる可能性があります。特に中小企業やスタートアップにとって、AIの導入障壁が大きく下がります。 ...