GGUF | hdknr blog

Google の最新 MoE モデル Gemma 4 26B-A4B を、個人 PC のローカル環境で最高効率で動かせるようになりました。Unsloth が公開した GGUF 量子化版は、精度を維持しながら劇的な軽量化を実現し、2026 年 4 月時点でローカル LLM の最前線に立っています。 Gemma 4 26B-A4B とは Gemma 4 は Google が 2026 年に公開したモデルファミリーで、E2B・E4B・26B-A4B・31B の 4 サイズが提供されています。 26B-A4B の「A4B」は Active 4B（推論時に活性化するパラメータ数の目安）を意味します。Mixture-of-Experts（MoE）アーキテクチャを採用しており、モデル全体のパラメータ数は 25.2B です。しかし 1 トークン生成ごとに動かすパラメータは 3.8B 相当に絞られるため、推論速度は 4B クラスと同等になります。指標 26B-A4B (MoE) 31B (Dense) 総パラメータ数 25.2B（モデル名は 26B） 31B 推論時アクティブパラメータ 3.8B 31B LMArena スコア (テキスト) 1441 1452 必要 VRAM (4-bit) 16〜18GB — 26B と名乗りながら推論速度は 4B クラスという驚異的な効率を実現しています。 ...