<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>GGUF on hdknr blog</title><link>https://hdknr.github.io/blogs/tags/gguf/</link><description>Recent content in GGUF on hdknr blog</description><generator>Hugo -- 0.157.0</generator><language>ja</language><lastBuildDate>Thu, 23 Apr 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://hdknr.github.io/blogs/tags/gguf/index.xml" rel="self" type="application/rss+xml"/><item><title>Unsloth で Gemma 4 26B を極限まで量子化 — 16〜18GB VRAM で動く最強ローカル LLM</title><link>https://hdknr.github.io/blogs/posts/2026/04/unsloth-%E3%81%A7-gemma-4-26b-%E3%82%92%E6%A5%B5%E9%99%90%E3%81%BE%E3%81%A7%E9%87%8F%E5%AD%90%E5%8C%96-1618gb-vram-%E3%81%A7%E5%8B%95%E3%81%8F%E6%9C%80%E5%BC%B7%E3%83%AD%E3%83%BC%E3%82%AB%E3%83%AB-llm/</link><pubDate>Thu, 23 Apr 2026 00:00:00 +0000</pubDate><guid>https://hdknr.github.io/blogs/posts/2026/04/unsloth-%E3%81%A7-gemma-4-26b-%E3%82%92%E6%A5%B5%E9%99%90%E3%81%BE%E3%81%A7%E9%87%8F%E5%AD%90%E5%8C%96-1618gb-vram-%E3%81%A7%E5%8B%95%E3%81%8F%E6%9C%80%E5%BC%B7%E3%83%AD%E3%83%BC%E3%82%AB%E3%83%AB-llm/</guid><description>&lt;p&gt;Google の最新 MoE モデル &lt;strong&gt;Gemma 4 26B-A4B&lt;/strong&gt; を、個人 PC のローカル環境で最高効率で動かせるようになりました。Unsloth が公開した GGUF 量子化版は、精度を維持しながら劇的な軽量化を実現し、2026 年 4 月時点でローカル LLM の最前線に立っています。&lt;/p&gt;
&lt;h2 id="gemma-4-26b-a4b-とは"&gt;Gemma 4 26B-A4B とは&lt;/h2&gt;
&lt;p&gt;Gemma 4 は Google が 2026 年に公開したモデルファミリーで、E2B・E4B・26B-A4B・31B の 4 サイズが提供されています。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;26B-A4B&lt;/strong&gt; の「A4B」は &lt;em&gt;Active 4B&lt;/em&gt;（推論時に活性化するパラメータ数の目安）を意味します。Mixture-of-Experts（MoE）アーキテクチャを採用しており、モデル全体のパラメータ数は 25.2B です。しかし 1 トークン生成ごとに動かすパラメータは 3.8B 相当に絞られるため、推論速度は 4B クラスと同等になります。&lt;/p&gt;
&lt;table&gt;
&lt;thead&gt;
&lt;tr&gt;
&lt;th&gt;指標&lt;/th&gt;
&lt;th&gt;26B-A4B (MoE)&lt;/th&gt;
&lt;th&gt;31B (Dense)&lt;/th&gt;
&lt;/tr&gt;
&lt;/thead&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td&gt;総パラメータ数&lt;/td&gt;
&lt;td&gt;25.2B（モデル名は 26B）&lt;/td&gt;
&lt;td&gt;31B&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;推論時アクティブパラメータ&lt;/td&gt;
&lt;td&gt;3.8B&lt;/td&gt;
&lt;td&gt;31B&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;LMArena スコア (テキスト)&lt;/td&gt;
&lt;td&gt;1441&lt;/td&gt;
&lt;td&gt;1452&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td&gt;必要 VRAM (4-bit)&lt;/td&gt;
&lt;td&gt;16〜18GB&lt;/td&gt;
&lt;td&gt;—&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;26B と名乗りながら推論速度は 4B クラスという驚異的な効率を実現しています。&lt;/p&gt;</description></item></channel></rss>