Qwen(クウェン)

概要 Alibaba の Qwen チームが開発・公開する大規模言語モデルシリーズ。Apache 2.0 ライセンスで商用利用可能。コーディング性能、長コンテキスト対応、メモリ効率のバランスが優れており、ローカル LLM として実用性の高い選択肢。 Qwen3.5-27B の主要スペック 項目 内容 パラメータ数 27B アーキテクチャ Dense(Gated Delta Net + FFN) コンテキスト長 262K トークン(最大 1M 拡張可) 対応言語 201 言語 マルチモーダル ビジョン(画像理解) ライセンス Apache 2.0 リリース 2026年2月 ベンチマーク(Qwen3.5-27B) ベンチマーク スコア 備考 SWE-bench Verified 72.4% コーディング課題解決 LiveCodeBench 80.7% コーディング性能 MMLU-Pro 86.1% 知識・推論 GPQA Diamond 85.5% 科学的推論 メモリ要件 量子化 モデルサイズ 必要メモリ Q4_K_M(4bit) 約 16.7 GB 18 GB+ Q8_0(8bit) 約 30 GB 32 GB+ FP16 約 54 GB 56 GB+ 4bit 量子化で 16.7GB と、24GB メモリ環境(RTX 4090 / M2 Mac 24GB)で余裕を持って動作する。 ...

2026年4月15日 · 1 分

ローカルLLM比較(2026年春)

概要 2026年春時点でローカル実行(オンプレミス・デバイス上)が現実的な主要 LLM の比較。いずれも Apache 2.0 または MIT ライセンスで商用利用可能。API 従量課金に依存しないアーキテクチャの実現に活用される。 主要3モデルの特性比較 項目 Gemma 4 31B Qwen3.5-27B BitNet b1.58 2B 開発元 Google DeepMind Alibaba Qwen Microsoft Research パラメータ 31B 27B 2.4B ライセンス Apache 2.0 Apache 2.0 MIT 4bit メモリ 約19GB 約16.7GB 0.4GB(ネイティブ1.58bit) CPU 推論 llama.cpp 経由 llama.cpp 経由 ネイティブ対応 マルチモーダル 画像・音声 画像・音声・動画 テキストのみ コンテキスト長 256K 262K(最大1M) 限定的 MMLU Pro 85.2% 86.1% —(MMLU 約52%) ユースケース別の選び方 ユースケース 推奨モデル 理由 推論・数学タスク Gemma 4 31B AIME 89.2%の突出した性能 コーディング支援 Qwen3.5-27B SWE-bench 72.4%の実務対応力 マルチモーダル(OCR含む) Gemma 4 31B 日本語テキスト画像にも対応 24GB メモリ環境での運用 Qwen3.5-27B 4bit で 16.7GB と余裕がある 省メモリ・省電力最優先 BitNet 2B 0.4GB で動作、最大82%省エネ GPU なしのローエンド PC BitNet 2B CPU 専用最適化カーネルで高速 長コンテキスト(1M) Qwen3.5-27B 1M トークンへの拡張対応 Apple Silicon での実行 モデル Ollama MLX サポート 推奨メモリ Gemma 4 31B 対応 vMLX 1.3.26+ が必要 32GB 以上 Qwen3.5-27B 対応 mlx-community で成熟 24GB 以上 BitNet 2B 要確認 — 8GB でも動作可能 Claude レート制限フォールバック構成 Claude Max のレート制限($200/月で3時間で消費する事例あり)への対策として、Mac Mini + ローカルモデルの組み合わせが有効。 ...

2026年4月15日 · 2 分

Gemma 4

概要 Google DeepMind が 2026年4月にリリースしたオープンソース LLM シリーズ。Apache 2.0 ライセンスで商用利用可能。エッジデバイスからサーバー/ワークステーションまで対応する4サイズ展開で、API 経済の構造に変化をもたらすと注目されている。 ラインナップ モデル パラメータ 推論時アクティブ コンテキスト 用途 E2B(MoE) 〜8B 約2B 128K スマートフォン・オフライン E4B(MoE) 〜16B 約4B 128K エッジデバイス 27B Dense 27B 27B 256K ミッドレンジサーバー 31B Dense 31B 31B 256K サーバー/ワークステーション E2B モデルはスマートフォン上での完全オフライン動作が可能で、API 従量課金に依存しない自律型 AI の基盤となりうる。 主な特徴 マルチモーダル対応: テキスト、画像、音声(モデルにより異なる) Apache 2.0 ライセンス: 商用利用・改変・再配布が自由 Ollama / llama.cpp 対応: ローカル実行が容易 Gemma 4 31B vs Qwen3.5-27B ローカル LLM として競合する Qwen3.5-27B(Alibaba)との比較では、推論・マルチモーダル能力は Gemma 4 が優位、コーディング性能・長文コンテキスト(262K トークン)は Qwen3.5 が優位とされる。 ...

2026年4月14日 · 1 分

Gemma 4

概要 Google DeepMind が 2026年4月にリリースした LLM シリーズ。Apache 2.0 ライセンスで商用利用に制限がなく、31B Dense から E2B(スマートフォン動作)まで4バリアントを提供。特に 26B MoE は総パラメータ数は 26B だが推論時アクティブは約 3.8B にとどまるため、一般的な GPU で実用的に動作する。 モデルラインナップ モデル パラメータ 推論時アクティブ コンテキスト 主な用途 31B Dense 31B 31B 256K サーバー/ワークステーション 26B MoE 26B 約 3.8B 256K サーバー/ワークステーション E4B — 約 4B 128K エッジデバイス E2B — 約 2.3B 128K スマートフォン 主な特徴 Apache 2.0 ライセンス: 商用利用・改変・再配布が自由 ネイティブ Function Calling: ツール呼び出しをモデルが意味的に理解 構造化 JSON 出力: API レスポンス向けの JSON 出力をネイティブサポート 256K コンテキスト: 長文書の処理やコードベース全体の分析に対応 140+ 言語対応: 日本語を含む多言語をサポート API 経済へのインパクト Gemma 4 は外部 LLM API に依存する SaaS のコスト構造を変える可能性を持つ。 ...

2026年4月7日 · 2 分

Gemma 4がAPI経済を破壊する — オープンモデルがSaaS課金モデルを変える理由

Gemma 4 が「すごいオープンソースモデル」として話題になっている。しかし、本当に注目すべきポイントはモデル性能だけではない。GoogleがAPI経済の構造そのものに挑戦しているという点だ。 Gemma 4のラインナップ Gemma 4は4つのサイズで提供されている。 モデル パラメータ 推論時アクティブ コンテキスト 用途 31B Dense 31B 31B 256K サーバー/ワークステーション 26B MoE 26B 約3.8B 256K サーバー/ワークステーション E4B 非公表 約4B 128K エッジデバイス E2B 非公表 約2.3B 128K スマートフォン 注目は 26B MoE だ。総パラメータ数は26Bだが、Mixture-of-Experts(MoE)アーキテクチャにより推論時にアクティブなのは約3.8Bのみ。これにより、RTX 4090のような一般的なGPUでも十分に動作する。 API課金モデルへのインパクト 従来のAI搭載SaaSは、以下のようなコスト構造を持つ。 1 2 3 ユーザーリクエスト → 自社サーバー → OpenAI/Anthropic API → レスポンス ↑ リクエストごとに課金 この構造では、ユーザーが増えるほどAPI費用が増加する。特にスタートアップにとって、スケールするほど外部API費用が利益を圧迫する「API課金の罠」に陥りやすい。 Gemma 4は、この構造を根本から変える可能性がある。 1 2 3 ユーザーリクエスト → 自社サーバー(Gemma 4稼働) → レスポンス ↑ 固定のインフラコストのみ Apache 2.0ライセンス で商用利用に制限がなく、カスタムの利用規約や解約条項もない。自社サーバーでモデルを稼働させれば、コストはインフラの固定費だけになる。 ...

2026年4月7日 · 1 分