概要

2026年春時点でローカル実行(オンプレミス・デバイス上)が現実的な主要 LLM の比較。いずれも Apache 2.0 または MIT ライセンスで商用利用可能。API 従量課金に依存しないアーキテクチャの実現に活用される。

主要3モデルの特性比較

項目Gemma 4 31BQwen3.5-27BBitNet b1.58 2B
開発元Google DeepMindAlibaba QwenMicrosoft Research
パラメータ31B27B2.4B
ライセンスApache 2.0Apache 2.0MIT
4bit メモリ約19GB約16.7GB0.4GB(ネイティブ1.58bit)
CPU 推論llama.cpp 経由llama.cpp 経由ネイティブ対応
マルチモーダル画像・音声画像・音声・動画テキストのみ
コンテキスト長256K262K(最大1M)限定的
MMLU Pro85.2%86.1%—(MMLU 約52%)

ユースケース別の選び方

ユースケース推奨モデル理由
推論・数学タスクGemma 4 31BAIME 89.2%の突出した性能
コーディング支援Qwen3.5-27BSWE-bench 72.4%の実務対応力
マルチモーダル(OCR含む)Gemma 4 31B日本語テキスト画像にも対応
24GB メモリ環境での運用Qwen3.5-27B4bit で 16.7GB と余裕がある
省メモリ・省電力最優先BitNet 2B0.4GB で動作、最大82%省エネ
GPU なしのローエンド PCBitNet 2BCPU 専用最適化カーネルで高速
長コンテキスト(1M)Qwen3.5-27B1M トークンへの拡張対応

Apple Silicon での実行

モデルOllamaMLX サポート推奨メモリ
Gemma 4 31B対応vMLX 1.3.26+ が必要32GB 以上
Qwen3.5-27B対応mlx-community で成熟24GB 以上
BitNet 2B要確認8GB でも動作可能

Claude レート制限フォールバック構成

Claude Max のレート制限($200/月で3時間で消費する事例あり)への対策として、Mac Mini + ローカルモデルの組み合わせが有効。

  • Mac Mini(Apple Silicon) に複数の量子化モデルを配置(例: 5モデル、合計約 350 億パラメーター)
  • Claude がレート制限に達したら自動でローカルモデルへフォールバック
  • 用途:メール整理・コンテキスト圧縮・深夜バッチ処理など
  • コスト比較:同等業務を3人のエンジニア月 $15,000 → Mac Mini 一台 $599 + ローカルモデル

API 経済への影響

Gemma 4 の Apache 2.0 ライセンスと E2B モデルのスマートフォンオフライン動作は、SaaS の API 従量課金構造を変える可能性がある:

  • 自社サーバーで Gemma 4 を稼働させることで、外部 API コストを固定インフラコストに変換できる
  • E2B モデルはスマートフォン上で 1.5GB 未満のメモリで動作し、API 呼び出しゼロのオフライン AI アプリが実現可能
  • BitNet はさらに一歩進み、CPU だけで 100B 規模のモデルを動作させるアーキテクチャを提供

関連ページ

  • Gemma 4 — Google DeepMind のオープンソース LLM 詳細
  • Qwen — Alibaba のオープンソース LLM 詳細
  • BitNet — Microsoft の 1-bit LLM 詳細
  • Ollama — ローカル LLM 実行環境

ソース記事