ローカルLLM比較(2026年春)

概要 2026年春時点でローカル実行(オンプレミス・デバイス上)が現実的な主要 LLM の比較。いずれも Apache 2.0 または MIT ライセンスで商用利用可能。API 従量課金に依存しないアーキテクチャの実現に活用される。 主要3モデルの特性比較 項目 Gemma 4 31B Qwen3.5-27B BitNet b1.58 2B 開発元 Google DeepMind Alibaba Qwen Microsoft Research パラメータ 31B 27B 2.4B ライセンス Apache 2.0 Apache 2.0 MIT 4bit メモリ 約19GB 約16.7GB 0.4GB(ネイティブ1.58bit) CPU 推論 llama.cpp 経由 llama.cpp 経由 ネイティブ対応 マルチモーダル 画像・音声 画像・音声・動画 テキストのみ コンテキスト長 256K 262K(最大1M) 限定的 MMLU Pro 85.2% 86.1% —(MMLU 約52%) ユースケース別の選び方 ユースケース 推奨モデル 理由 推論・数学タスク Gemma 4 31B AIME 89.2%の突出した性能 コーディング支援 Qwen3.5-27B SWE-bench 72.4%の実務対応力 マルチモーダル(OCR含む) Gemma 4 31B 日本語テキスト画像にも対応 24GB メモリ環境での運用 Qwen3.5-27B 4bit で 16.7GB と余裕がある 省メモリ・省電力最優先 BitNet 2B 0.4GB で動作、最大82%省エネ GPU なしのローエンド PC BitNet 2B CPU 専用最適化カーネルで高速 長コンテキスト(1M) Qwen3.5-27B 1M トークンへの拡張対応 Apple Silicon での実行 モデル Ollama MLX サポート 推奨メモリ Gemma 4 31B 対応 vMLX 1.3.26+ が必要 32GB 以上 Qwen3.5-27B 対応 mlx-community で成熟 24GB 以上 BitNet 2B 要確認 — 8GB でも動作可能 Claude レート制限フォールバック構成 Claude Max のレート制限($200/月で3時間で消費する事例あり)への対策として、Mac Mini + ローカルモデルの組み合わせが有効。 ...

2026年4月15日 · 2 分

Gemma 4

概要 Google DeepMind が 2026年4月にリリースしたオープンソース LLM シリーズ。Apache 2.0 ライセンスで商用利用可能。エッジデバイスからサーバー/ワークステーションまで対応する4サイズ展開で、API 経済の構造に変化をもたらすと注目されている。 ラインナップ モデル パラメータ 推論時アクティブ コンテキスト 用途 E2B(MoE) 〜8B 約2B 128K スマートフォン・オフライン E4B(MoE) 〜16B 約4B 128K エッジデバイス 27B Dense 27B 27B 256K ミッドレンジサーバー 31B Dense 31B 31B 256K サーバー/ワークステーション E2B モデルはスマートフォン上での完全オフライン動作が可能で、API 従量課金に依存しない自律型 AI の基盤となりうる。 主な特徴 マルチモーダル対応: テキスト、画像、音声(モデルにより異なる) Apache 2.0 ライセンス: 商用利用・改変・再配布が自由 Ollama / llama.cpp 対応: ローカル実行が容易 Gemma 4 31B vs Qwen3.5-27B ローカル LLM として競合する Qwen3.5-27B(Alibaba)との比較では、推論・マルチモーダル能力は Gemma 4 が優位、コーディング性能・長文コンテキスト(262K トークン)は Qwen3.5 が優位とされる。 ...

2026年4月14日 · 1 分

Gemma 4

概要 Google DeepMind が 2026年4月にリリースした LLM シリーズ。Apache 2.0 ライセンスで商用利用に制限がなく、31B Dense から E2B(スマートフォン動作)まで4バリアントを提供。特に 26B MoE は総パラメータ数は 26B だが推論時アクティブは約 3.8B にとどまるため、一般的な GPU で実用的に動作する。 モデルラインナップ モデル パラメータ 推論時アクティブ コンテキスト 主な用途 31B Dense 31B 31B 256K サーバー/ワークステーション 26B MoE 26B 約 3.8B 256K サーバー/ワークステーション E4B — 約 4B 128K エッジデバイス E2B — 約 2.3B 128K スマートフォン 主な特徴 Apache 2.0 ライセンス: 商用利用・改変・再配布が自由 ネイティブ Function Calling: ツール呼び出しをモデルが意味的に理解 構造化 JSON 出力: API レスポンス向けの JSON 出力をネイティブサポート 256K コンテキスト: 長文書の処理やコードベース全体の分析に対応 140+ 言語対応: 日本語を含む多言語をサポート API 経済へのインパクト Gemma 4 は外部 LLM API に依存する SaaS のコスト構造を変える可能性を持つ。 ...

2026年4月7日 · 2 分

Gemma 4 31B vs Qwen3.5-27B — ローカルLLM最強はどちらか

2026年春、ローカルで動かせる高性能 LLM の選択肢が充実してきた。中でも注目なのが Google の Gemma 4 31B(2026年4月リリース、Apache 2.0)と Alibaba の Qwen3.5-27B(2026年2月リリース)だ。どちらも密(dense)モデルで、Apple Silicon Mac や RTX 4090 クラスの GPU で実用的に動作する。 結論を先に述べると、推論・マルチモーダルなら Gemma 4、コーディング・メモリ効率なら Qwen3.5 が適している。本記事では、その判断根拠を主要な観点から比較する。 基本スペック比較 項目 Gemma 4 31B Qwen3.5-27B パラメータ数 31B 27B アーキテクチャ Dense Transformer(Hybrid Attention) Dense(Gated Delta Net + FFN) コンテキスト長 256K トークン 262K トークン(最大 1M 拡張可) 対応言語 140+ 言語 201 言語 マルチモーダル ビジョン(画像理解・OCR) ビジョン(画像理解) ライセンス Apache 2.0 Apache 2.0 開発元 Google DeepMind Alibaba Qwen 両モデルとも Apache 2.0 ライセンスで、商用利用に制限がない。コンテキスト長はほぼ同等だが、Qwen3.5 は 1M トークンまでの拡張に対応している点で有利だ。 ...

2026年4月7日 · 3 分

Gemma 4がAPI経済を破壊する — オープンモデルがSaaS課金モデルを変える理由

Gemma 4 が「すごいオープンソースモデル」として話題になっている。しかし、本当に注目すべきポイントはモデル性能だけではない。GoogleがAPI経済の構造そのものに挑戦しているという点だ。 Gemma 4のラインナップ Gemma 4は4つのサイズで提供されている。 モデル パラメータ 推論時アクティブ コンテキスト 用途 31B Dense 31B 31B 256K サーバー/ワークステーション 26B MoE 26B 約3.8B 256K サーバー/ワークステーション E4B 非公表 約4B 128K エッジデバイス E2B 非公表 約2.3B 128K スマートフォン 注目は 26B MoE だ。総パラメータ数は26Bだが、Mixture-of-Experts(MoE)アーキテクチャにより推論時にアクティブなのは約3.8Bのみ。これにより、RTX 4090のような一般的なGPUでも十分に動作する。 API課金モデルへのインパクト 従来のAI搭載SaaSは、以下のようなコスト構造を持つ。 1 2 3 ユーザーリクエスト → 自社サーバー → OpenAI/Anthropic API → レスポンス ↑ リクエストごとに課金 この構造では、ユーザーが増えるほどAPI費用が増加する。特にスタートアップにとって、スケールするほど外部API費用が利益を圧迫する「API課金の罠」に陥りやすい。 Gemma 4は、この構造を根本から変える可能性がある。 1 2 3 ユーザーリクエスト → 自社サーバー(Gemma 4稼働) → レスポンス ↑ 固定のインフラコストのみ Apache 2.0ライセンス で商用利用に制限がなく、カスタムの利用規約や解約条項もない。自社サーバーでモデルを稼働させれば、コストはインフラの固定費だけになる。 ...

2026年4月7日 · 1 分

Gemma 4 31Bの脱獄モデル「CRACK」登場 — Abliteration技術でセーフティを除去

Google の Gemma 4 31B モデルをベースに、安全性制限を除去した「Gemma-4-31B-JANG_4M-CRACK」が Hugging Face で公開された。開発元の dealignai は、Abliteration(アブリテレーション)と呼ばれる手法でモデルの拒否行動を除去した。知識性能の劣化は MMLU で -2.0% にとどまる。 Abliteration とは何か Abliteration は、LLM の学習済み拒否メカニズムを再学習なしで除去する手法だ。2024年頃から研究が進み、現在では複数のバリエーションが存在する。 基本的な仕組みは以下の通り: 拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム(Transformer 内部の中間表現が流れる経路)の活性化を記録する。両者の平均差分ベクトルが「拒否方向」(refusal direction)となる 重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化(orthogonalization)する。直感的には、拒否方向の成分を重みから差し引く操作にあたる。これにより、モデルはその方向への活性化を生成できなくなる 性能保持: 拒否方向のみをターゲットにするため、モデルの汎用的な知識や推論能力への影響は最小限に抑えられる 最近の改良版である Norm-Preserving Biprojected Abliteration では、ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えている。 CRACK モデルのスペック 項目 値 ベースモデル google/gemma-4-31b-it アーキテクチャ Dense Transformer + Hybrid Sliding/Global Attention 量子化プロファイル JANG_4M(CRITICAL=8-bit, COMPRESS=4-bit) 平均ビット数 5.1 bits モデルサイズ 18 GB ビジョン マルチモーダル対応(ビジョンエンコーダは量子化せず float16 を維持) フォーマット JANG v2(MLX ネイティブ safetensors) JANG_4M のビット割り当て JANG プロファイルの特徴は、アテンション層とMLP層で異なるビット精度を割り当てる点にある: CRITICAL(8-bit): Attention の Q/K/V/O 重み、エンベディング COMPRESS(4-bit): MLP の gate/up/down projection、その他の重み Dense モデルは MLP 部分の量子化耐性が高いため、この戦略により 18GB という実用的なサイズを実現している。 ...

2026年4月6日 · 1 分