オープンソースLLM

Qwen（クウェン）

概要 Alibaba の Qwen チームが開発・公開する大規模言語モデルシリーズ。Apache 2.0 ライセンスで商用利用可能。コーディング性能、長コンテキスト対応、メモリ効率のバランスが優れており、ローカル LLM として実用性の高い選択肢。 Qwen3.5-27B の主要スペック項目内容パラメータ数 27B アーキテクチャ Dense（Gated Delta Net + FFN）コンテキスト長 262K トークン（最大 1M 拡張可）対応言語 201 言語マルチモーダルビジョン（画像理解）ライセンス Apache 2.0 リリース 2026年2月ベンチマーク（Qwen3.5-27B）ベンチマークスコア備考 SWE-bench Verified 72.4% コーディング課題解決 LiveCodeBench 80.7% コーディング性能 MMLU-Pro 86.1% 知識・推論 GPQA Diamond 85.5% 科学的推論メモリ要件量子化モデルサイズ必要メモリ Q4_K_M（4bit）約 16.7 GB 18 GB+ Q8_0（8bit）約 30 GB 32 GB+ FP16 約 54 GB 56 GB+ 4bit 量子化で 16.7GB と、24GB メモリ環境（RTX 4090 / M2 Mac 24GB）で余裕を持って動作する。 ...

ローカルLLM比較（2026年春）

概要 2026年春時点でローカル実行（オンプレミス・デバイス上）が現実的な主要 LLM の比較。いずれも Apache 2.0 または MIT ライセンスで商用利用可能。API 従量課金に依存しないアーキテクチャの実現に活用される。主要3モデルの特性比較項目 Gemma 4 31B Qwen3.5-27B BitNet b1.58 2B 開発元 Google DeepMind Alibaba Qwen Microsoft Research パラメータ 31B 27B 2.4B ライセンス Apache 2.0 Apache 2.0 MIT 4bit メモリ約19GB 約16.7GB 0.4GB（ネイティブ1.58bit） CPU 推論 llama.cpp 経由 llama.cpp 経由ネイティブ対応マルチモーダル画像・音声画像・音声・動画テキストのみコンテキスト長 256K 262K（最大1M）限定的 MMLU Pro 85.2% 86.1% —（MMLU 約52%）ユースケース別の選び方ユースケース推奨モデル理由推論・数学タスク Gemma 4 31B AIME 89.2%の突出した性能コーディング支援 Qwen3.5-27B SWE-bench 72.4%の実務対応力マルチモーダル（OCR含む） Gemma 4 31B 日本語テキスト画像にも対応 24GB メモリ環境での運用 Qwen3.5-27B 4bit で 16.7GB と余裕がある省メモリ・省電力最優先 BitNet 2B 0.4GB で動作、最大82%省エネ GPU なしのローエンド PC BitNet 2B CPU 専用最適化カーネルで高速長コンテキスト（1M） Qwen3.5-27B 1M トークンへの拡張対応 Apple Silicon での実行モデル Ollama MLX サポート推奨メモリ Gemma 4 31B 対応 vMLX 1.3.26+ が必要 32GB 以上 Qwen3.5-27B 対応 mlx-community で成熟 24GB 以上 BitNet 2B 要確認 — 8GB でも動作可能 Claude レート制限フォールバック構成 Claude Max のレート制限（$200/月で3時間で消費する事例あり）への対策として、Mac Mini + ローカルモデルの組み合わせが有効。 ...

Gemma 4

概要 Google DeepMind が 2026年4月にリリースしたオープンソース LLM シリーズ。Apache 2.0 ライセンスで商用利用可能。エッジデバイスからサーバー/ワークステーションまで対応する4サイズ展開で、API 経済の構造に変化をもたらすと注目されている。ラインナップモデルパラメータ推論時アクティブコンテキスト用途 E2B（MoE）〜8B 約2B 128K スマートフォン・オフライン E4B（MoE）〜16B 約4B 128K エッジデバイス 27B Dense 27B 27B 256K ミッドレンジサーバー 31B Dense 31B 31B 256K サーバー/ワークステーション E2B モデルはスマートフォン上での完全オフライン動作が可能で、API 従量課金に依存しない自律型 AI の基盤となりうる。主な特徴マルチモーダル対応: テキスト、画像、音声（モデルにより異なる） Apache 2.0 ライセンス: 商用利用・改変・再配布が自由 Ollama / llama.cpp 対応: ローカル実行が容易 Gemma 4 31B vs Qwen3.5-27B ローカル LLM として競合する Qwen3.5-27B（Alibaba）との比較では、推論・マルチモーダル能力は Gemma 4 が優位、コーディング性能・長文コンテキスト（262K トークン）は Qwen3.5 が優位とされる。 ...

Gemma 4

概要 Google DeepMind が 2026年4月にリリースした LLM シリーズ。Apache 2.0 ライセンスで商用利用に制限がなく、31B Dense から E2B（スマートフォン動作）まで4バリアントを提供。特に 26B MoE は総パラメータ数は 26B だが推論時アクティブは約 3.8B にとどまるため、一般的な GPU で実用的に動作する。モデルラインナップモデルパラメータ推論時アクティブコンテキスト主な用途 31B Dense 31B 31B 256K サーバー/ワークステーション 26B MoE 26B 約 3.8B 256K サーバー/ワークステーション E4B — 約 4B 128K エッジデバイス E2B — 約 2.3B 128K スマートフォン主な特徴 Apache 2.0 ライセンス: 商用利用・改変・再配布が自由ネイティブ Function Calling: ツール呼び出しをモデルが意味的に理解構造化 JSON 出力: API レスポンス向けの JSON 出力をネイティブサポート 256K コンテキスト: 長文書の処理やコードベース全体の分析に対応 140+ 言語対応: 日本語を含む多言語をサポート API 経済へのインパクト Gemma 4 は外部 LLM API に依存する SaaS のコスト構造を変える可能性を持つ。 ...

Gemma 4がAPI経済を破壊する — オープンモデルがSaaS課金モデルを変える理由

Gemma 4 が「すごいオープンソースモデル」として話題になっている。しかし、本当に注目すべきポイントはモデル性能だけではない。GoogleがAPI経済の構造そのものに挑戦しているという点だ。 Gemma 4のラインナップ Gemma 4は4つのサイズで提供されている。モデルパラメータ推論時アクティブコンテキスト用途 31B Dense 31B 31B 256K サーバー/ワークステーション 26B MoE 26B 約3.8B 256K サーバー/ワークステーション E4B 非公表約4B 128K エッジデバイス E2B 非公表約2.3B 128K スマートフォン注目は 26B MoE だ。総パラメータ数は26Bだが、Mixture-of-Experts（MoE）アーキテクチャにより推論時にアクティブなのは約3.8Bのみ。これにより、RTX 4090のような一般的なGPUでも十分に動作する。 API課金モデルへのインパクト従来のAI搭載SaaSは、以下のようなコスト構造を持つ。 1 2 3 ユーザーリクエスト → 自社サーバー → OpenAI/Anthropic API → レスポンス ↑ リクエストごとに課金この構造では、ユーザーが増えるほどAPI費用が増加する。特にスタートアップにとって、スケールするほど外部API費用が利益を圧迫する「API課金の罠」に陥りやすい。 Gemma 4は、この構造を根本から変える可能性がある。 1 2 3 ユーザーリクエスト → 自社サーバー（Gemma 4稼働） → レスポンス ↑ 固定のインフラコストのみ Apache 2.0ライセンスで商用利用に制限がなく、カスタムの利用規約や解約条項もない。自社サーバーでモデルを稼働させれば、コストはインフラの固定費だけになる。 ...