Unsloth で Gemma 4 26B を極限まで量子化 — 16〜18GB VRAM で動く最強ローカル LLM

Thu, 23 Apr 2026 00:00:00 +0000

Google の最新 MoE モデル Gemma 4 26B-A4B を、個人 PC のローカル環境で最高効率で動かせるようになりました。Unsloth が公開した GGUF 量子化版は、精度を維持しながら劇的な軽量化を実現し、2026 年 4 月時点でローカル LLM の最前線に立っています。

Gemma 4 26B-A4B とは

Gemma 4 は Google が 2026 年に公開したモデルファミリーで、E2B・E4B・26B-A4B・31B の 4 サイズが提供されています。

26B-A4B の「A4B」は Active 4B（推論時に活性化するパラメータ数の目安）を意味します。Mixture-of-Experts（MoE）アーキテクチャを採用しており、モデル全体のパラメータ数は 25.2B です。しかし 1 トークン生成ごとに動かすパラメータは 3.8B 相当に絞られるため、推論速度は 4B クラスと同等になります。

指標	26B-A4B (MoE)	31B (Dense)
総パラメータ数	25.2B（モデル名は 26B）	31B
推論時アクティブパラメータ	3.8B	31B
LMArena スコア (テキスト)	1441	1452
必要 VRAM (4-bit)	16〜18GB	—

26B と名乗りながら推論速度は 4B クラスという驚異的な効率を実現しています。

GGUF on hdknr blog

Unsloth で Gemma 4 26B を極限まで量子化 — 16〜18GB VRAM で動く最強ローカル LLM

Gemma 4 26B-A4B とは