2026年春、ローカルで動かせる高性能 LLM の選択肢が充実してきた。中でも注目なのが Google の Gemma 4 31B(2026年4月リリース、Apache 2.0)と Alibaba の Qwen3.5-27B(2026年2月リリース)だ。どちらも密(dense)モデルで、Apple Silicon Mac や RTX 4090 クラスの GPU で実用的に動作する。

結論を先に述べると、推論・マルチモーダルなら Gemma 4、コーディング・メモリ効率なら Qwen3.5 が適している。本記事では、その判断根拠を主要な観点から比較する。

基本スペック比較

項目Gemma 4 31BQwen3.5-27B
パラメータ数31B27B
アーキテクチャDense Transformer(Hybrid Attention)Dense(Gated Delta Net + FFN)
コンテキスト長256K トークン262K トークン(最大 1M 拡張可)
対応言語140+ 言語201 言語
マルチモーダルビジョン(画像理解・OCR)ビジョン(画像理解)
ライセンスApache 2.0Apache 2.0
開発元Google DeepMindAlibaba Qwen

両モデルとも Apache 2.0 ライセンスで、商用利用に制限がない。コンテキスト長はほぼ同等だが、Qwen3.5 は 1M トークンまでの拡張に対応している点で有利だ。

ベンチマーク比較

知識・推論

ベンチマークGemma 4 31BQwen3.5-27B優位
MMLU-Pro85.2%86.1%Qwen
GPQA Diamond84.3%85.5%Qwen
AIME 2026(数学)89.2%Gemma

※ 「—」は公式ベンチマーク結果が公開されていない項目を示す。

知識系ベンチマーク(MMLU-Pro, GPQA Diamond)では Qwen3.5 がわずかに上回る。一方、数学の競技レベル問題(AIME 2026)では Gemma 4 が 89.2% と突出している。

コーディング

ベンチマークGemma 4 31BQwen3.5-27B優位
SWE-bench Verified72.4%Qwen
LiveCodeBench80.7%Qwen
Codeforces ELO2150Gemma

コーディング関連では Qwen3.5 が SWE-bench Verified 72.4%、LiveCodeBench 80.7% と強い。Gemma 4 は Codeforces ELO 2150 で競技プログラミング系に強みを見せる。全体として、実務的なコーディングタスクでは Qwen3.5 が安定している。

総合

Arena AI リーダーボードでは Gemma 4 31B がスコア 1,452 でオープンモデル第3位にランクイン。推論(reasoning)タスクでは Gemma 4 が平均 66.4 対 60.6 で優位だが、知識タスクでは Qwen3.5 が 80.6 対 61.3 と大差をつけている。

メモリ要件と量子化

Gemma 4 31B

量子化モデルサイズ必要メモリ
JANG_4M(dealignai 提供の混合精度、平均 5.1bit)18 GB24 GB+
Q4_K_M(4bit)約 19 GB24 GB+
Q8_0(8bit)約 34 GB36 GB+

Qwen3.5-27B

量子化モデルサイズ必要メモリ
Q4_K_M(4bit)約 16.7 GB18 GB+
Q8_0(8bit)約 30 GB32 GB+
FP16約 54 GB56 GB+

パラメータ数の差(31B vs 27B)がそのままメモリ要件に反映されている。RTX 4090(24GB)や M2/M3 Mac(24GB)では Qwen3.5 の方が余裕がある。Gemma 4 31B の Q4 量子化は 24GB 環境でもギリギリ動作するが、コンテキストを長くすると不足する可能性がある。

32GB 以上のメモリがあれば、両モデルとも快適に動作する。

ローカル実行環境

Ollama

両モデルとも Ollama で手軽に実行できる。

1
2
3
4
5
# Gemma 4 31B
ollama run gemma4:31b

# Qwen3.5-27B
ollama run qwen3.5:27b

Ollama は 0.19 から MLX バックエンドをプレビューサポートしており、Apple Silicon での高速化が期待できる。

MLX(Apple Silicon 向け)

項目Gemma 4 31BQwen3.5-27B
MLX 対応vMLX 1.3.26+ が必要mlx-community で対応済み
標準 mlx_lm2026年4月時点で未対応対応済み

Gemma 4 は MLX のエコシステムサポートがまだ発展途上で、専用の vMLX が必要な点がやや不便だ。Qwen3.5 は mlx-community の量子化モデルが豊富で、すぐに使い始められる。

推論速度の目安(Apple Silicon)

llama.cpp ベースでの参考値:

  • Gemma 4 31B: M5 Max で約 15 tok/s(llama.cpp、MLX 非使用時)
  • Gemma 4 26B MoE: M2 Ultra で約 300 tok/s(参考)

Qwen3.5-27B の Apple Silicon 上での公式ベンチマークは 2026年4月時点で未公開だが、パラメータ数が約13%少ないため、同じ量子化レベルでは Gemma 4 31B より高速になると見込まれる。

※ 上記の Gemma 4 26B MoE は本記事の比較対象(Dense モデル)ではなく、参考値として掲載。

日本語対応

項目Gemma 4 31BQwen3.5-27B
学習言語数140+201
日本語対応明示的にサポート明示的にサポート
日本語 OCRビジョン機能で対応未検証

両モデルとも日本語をサポートしている。Gemma 4 はマルチモーダル機能により日本語テキストを含む画像の OCR にも対応しており、書類処理などの用途で有利だ。Qwen3.5 は 201 言語という幅広い言語カバレッジを持つ。

日本語の文章生成品質は、両モデルとも実用レベルに達しているが、個別のタスクでの優劣はプロンプトや用途に依存する部分が大きい。

どちらを選ぶべきか

Gemma 4 31B が向いているケース

  • 推論・数学タスクが中心(AIME 89.2%)
  • マルチモーダル(画像理解・OCR)を重視
  • 32GB 以上のメモリがある環境

Qwen3.5-27B が向いているケース

  • コーディング支援が主な用途(SWE-bench 72.4%)
  • 24GB メモリで動かしたい(4bit で 16.7GB)
  • MLX エコシステムをすぐ使いたい
  • 長コンテキスト(1M トークン拡張)が必要

まとめ

観点推奨
推論・数学Gemma 4 31B
コーディングQwen3.5-27B
マルチモーダルGemma 4 31B
メモリ効率Qwen3.5-27B
エコシステム成熟度Qwen3.5-27B
知識ベンチマークQwen3.5-27B
ライセンス同等(Apache 2.0)

両モデルとも優秀で、明確な「最強」は存在しない。用途とハードウェア環境に応じて選ぶのが正解だ。推論とマルチモーダルなら Gemma 4、コーディングとメモリ効率なら Qwen3.5 という棲み分けになるだろう。

参考リンク