Gemma 4 31B vs Qwen3.5-27B — ローカルLLM最強はどちらか

2026年春、ローカルで動かせる高性能 LLM の選択肢が充実してきた。中でも注目なのが Google の Gemma 4 31B(2026年4月リリース、Apache 2.0)と Alibaba の Qwen3.5-27B(2026年2月リリース)だ。どちらも密(dense)モデルで、Apple Silicon Mac や RTX 4090 クラスの GPU で実用的に動作する。 結論を先に述べると、推論・マルチモーダルなら Gemma 4、コーディング・メモリ効率なら Qwen3.5 が適している。本記事では、その判断根拠を主要な観点から比較する。 基本スペック比較 項目 Gemma 4 31B Qwen3.5-27B パラメータ数 31B 27B アーキテクチャ Dense Transformer(Hybrid Attention) Dense(Gated Delta Net + FFN) コンテキスト長 256K トークン 262K トークン(最大 1M 拡張可) 対応言語 140+ 言語 201 言語 マルチモーダル ビジョン(画像理解・OCR) ビジョン(画像理解) ライセンス Apache 2.0 Apache 2.0 開発元 Google DeepMind Alibaba Qwen 両モデルとも Apache 2.0 ライセンスで、商用利用に制限がない。コンテキスト長はほぼ同等だが、Qwen3.5 は 1M トークンまでの拡張に対応している点で有利だ。 ...

2026年4月7日 · 3 分

Gemma 4 31Bの脱獄モデル「CRACK」登場 — Abliteration技術でセーフティを除去

Google の Gemma 4 31B モデルをベースに、安全性制限を除去した「Gemma-4-31B-JANG_4M-CRACK」が Hugging Face で公開された。開発元の dealignai は、Abliteration(アブリテレーション)と呼ばれる手法でモデルの拒否行動を除去した。知識性能の劣化は MMLU で -2.0% にとどまる。 Abliteration とは何か Abliteration は、LLM の学習済み拒否メカニズムを再学習なしで除去する手法だ。2024年頃から研究が進み、現在では複数のバリエーションが存在する。 基本的な仕組みは以下の通り: 拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム(Transformer 内部の中間表現が流れる経路)の活性化を記録する。両者の平均差分ベクトルが「拒否方向」(refusal direction)となる 重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化(orthogonalization)する。直感的には、拒否方向の成分を重みから差し引く操作にあたる。これにより、モデルはその方向への活性化を生成できなくなる 性能保持: 拒否方向のみをターゲットにするため、モデルの汎用的な知識や推論能力への影響は最小限に抑えられる 最近の改良版である Norm-Preserving Biprojected Abliteration では、ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えている。 CRACK モデルのスペック 項目 値 ベースモデル google/gemma-4-31b-it アーキテクチャ Dense Transformer + Hybrid Sliding/Global Attention 量子化プロファイル JANG_4M(CRITICAL=8-bit, COMPRESS=4-bit) 平均ビット数 5.1 bits モデルサイズ 18 GB ビジョン マルチモーダル対応(ビジョンエンコーダは量子化せず float16 を維持) フォーマット JANG v2(MLX ネイティブ safetensors) JANG_4M のビット割り当て JANG プロファイルの特徴は、アテンション層とMLP層で異なるビット精度を割り当てる点にある: CRITICAL(8-bit): Attention の Q/K/V/O 重み、エンベディング COMPRESS(4-bit): MLP の gate/up/down projection、その他の重み Dense モデルは MLP 部分の量子化耐性が高いため、この戦略により 18GB という実用的なサイズを実現している。 ...

2026年4月6日 · 1 分