Alibaba Cloud の Qwen チームが 2026 年 2 月にリリースした Qwen3.5-27B は、27B パラメータという中規模サイズながら上位モデルに匹敵する性能を発揮する密(dense)モデルです。メモリ効率に優れ、量子化を活用すれば個人の PC でも快適に動作するため「自分専用 AI」を構築するのに最適な選択肢として注目されています。
Qwen3.5-27B の主な特徴
アーキテクチャ
Qwen3.5-27B は MoE(Mixture of Experts)ではなく、全パラメータが推論時に活性化される 密モデル(dense model) です。Gated Delta Networks と Feed Forward Networks を組み合わせた構造で、高い計算密度を実現しています。
- パラメータ数: 27B(全パラメータ活性化)
- コンテキスト長: 262K トークン(最大 1M まで拡張可能)
- 対応言語: 201 言語
- マルチモーダル: 視覚・言語の統合能力を搭載
ベンチマーク性能
27B というサイズにもかかわらず、主要ベンチマークで際立った成績を残しています。
| ベンチマーク | スコア |
|---|---|
| MMLU-Pro | 86.1% |
| GPQA Diamond | 85.5% |
| SWE-bench Verified | 72.4% |
| LiveCodeBench | 80.7% |
| IFEval | 95.0% |
| HMMT(数学) | 92.0% |
特に SWE-bench Verified で 72.4% は GPT-5 mini と同等の数値であり、オープンウェイトの 27B 密モデルとしては驚異的な結果です。コーディング、数学、指示追従の各タスクで中規模モデルカテゴリをリードしています。
ローカル環境での実行
Qwen3.5-27B の魅力は、個人の PC でローカル実行できる点にあります。
VRAM 要件の目安
| 量子化方式 | モデルサイズ | 必要 VRAM |
|---|---|---|
| Q4_K_M(4bit) | 約 16.7 GB | 約 18 GB |
| Q8_0(8bit) | 約 30 GB | 約 32 GB |
| FP16(非量子化) | 約 54 GB | 約 56 GB |
Q4_K_M 量子化であれば RTX 4090(24GB)に収まります。 RTX 3090 でも 5bit 量子化で実用的に動作するという報告があります。
Ollama での実行
Ollama を使えば手軽にローカル実行できます。
| |
llama.cpp での実行
GGUF 形式のモデルを llama.cpp で直接実行する方法もあります。
| |
他のモデルとの比較
Qwen3.5 シリーズには複数のバリアントがあり、用途に応じて選択できます。
| モデル | パラメータ | 特徴 |
|---|---|---|
| Qwen3.5-27B | 27B(dense) | バランス型、ローカル向き |
| Qwen3.5-35B-A3B | 35B(MoE、3B活性化) | 超軽量、速度重視 |
| Qwen3.5-122B-A10B | 122B(MoE、10B活性化) | 高性能、API向き |
27B は「全パラメータ活性化による高い品質」と「個人 PC で動くサイズ」のバランスが取れたモデルです。
まとめ
Qwen3.5-27B は、SWE-bench Verified で GPT-5 mini に匹敵するスコアを出しながら、4bit 量子化で RTX 4090 に収まるという「コスパの鬼」です。ローカル LLM で本格的な開発支援やテキスト生成を行いたいなら、有力な選択肢になるでしょう。