ローカルLLM比較(2026年春)
概要 2026年春時点でローカル実行(オンプレミス・デバイス上)が現実的な主要 LLM の比較。いずれも Apache 2.0 または MIT ライセンスで商用利用可能。API 従量課金に依存しないアーキテクチャの実現に活用される。 主要3モデルの特性比較 項目 Gemma 4 31B Qwen3.5-27B BitNet b1.58 2B 開発元 Google DeepMind Alibaba Qwen Microsoft Research パラメータ 31B 27B 2.4B ライセンス Apache 2.0 Apache 2.0 MIT 4bit メモリ 約19GB 約16.7GB 0.4GB(ネイティブ1.58bit) CPU 推論 llama.cpp 経由 llama.cpp 経由 ネイティブ対応 マルチモーダル 画像・音声 画像・音声・動画 テキストのみ コンテキスト長 256K 262K(最大1M) 限定的 MMLU Pro 85.2% 86.1% —(MMLU 約52%) ユースケース別の選び方 ユースケース 推奨モデル 理由 推論・数学タスク Gemma 4 31B AIME 89.2%の突出した性能 コーディング支援 Qwen3.5-27B SWE-bench 72.4%の実務対応力 マルチモーダル(OCR含む) Gemma 4 31B 日本語テキスト画像にも対応 24GB メモリ環境での運用 Qwen3.5-27B 4bit で 16.7GB と余裕がある 省メモリ・省電力最優先 BitNet 2B 0.4GB で動作、最大82%省エネ GPU なしのローエンド PC BitNet 2B CPU 専用最適化カーネルで高速 長コンテキスト(1M) Qwen3.5-27B 1M トークンへの拡張対応 Apple Silicon での実行 モデル Ollama MLX サポート 推奨メモリ Gemma 4 31B 対応 vMLX 1.3.26+ が必要 32GB 以上 Qwen3.5-27B 対応 mlx-community で成熟 24GB 以上 BitNet 2B 要確認 — 8GB でも動作可能 Claude レート制限フォールバック構成 Claude Max のレート制限($200/月で3時間で消費する事例あり)への対策として、Mac Mini + ローカルモデルの組み合わせが有効。 ...