DFlash

概要 DFlash(Block Diffusion for Flash Speculative Decoding)は投機的デコードを発展させた推論加速技術の MLX 実装(dflash-mlx)。Qwen3.5-9B モデルで 4.1 倍のスループット向上を達成。精度を落とさない exact speculative decoding(ロスレス)。 仕組み 通常の推測デコードは小さなドラフトモデルが 1 トークンずつ予測するのに対し、DFlash はドラフトモデルが 16 トークンを並列生成。ターゲットモデルが 1 回のフォワードパスでまとめて検証するため大幅なスループット向上を実現。Apple 独自の Metal カーネルでロールバック処理を実装しオーバーヘッドを最小化。 インストール 1 2 3 4 git clone https://github.com/aryagm/dflash-mlx.git cd dflash-mlx uv sync uv run dflash-mlx --max-new-tokens 128 関連ページ ローカル LLM 比較 ソース記事 MacのローカルLLMが4.1倍速に!Apple Silicon向け新技術「DFlash」 — 2026-04-15

2026年4月23日 · 1 分

MacのローカルLLMが4.1倍速に!Apple Silicon向け新技術「DFlash」

Apple Silicon(M4/M5 Max など)搭載の Mac で、ローカル LLM を最大 4.1 倍高速化する新技術「DFlash」のオープンソース実装が公開されました。精度を落とさずに推論速度だけを大幅に向上できる点が注目されています。 DFlash とは DFlash(Block Diffusion for Flash Speculative Decoding)は、投機的デコード(Speculative Decoding)を発展させた推論加速技術です。論文「Block Diffusion for Flash Speculative Decoding」で提案された手法を、Apple の MLX フレームワーク向けに実装したものが dflash-mlx として公開されています。 仕組み 推測デコード(Speculative Decoding) 通常の推測デコードでは、小さな「ドラフトモデル」が次のトークンを予測し、大きな「ターゲットモデル」がそれを検証します。ドラフトの予測が正しければそのまま採用するため、検証パスを有効活用してスループットを上げます。 ブロック拡散(Block Diffusion) DFlash では、ドラフトモデルが 1 トークンずつではなく 16 トークンをまとめて並列生成します。ターゲットモデルは 1 回のフォワードパスでこれらをまとめて検証するため、大幅なスループット向上が実現します。 Apple Silicon / MLX への最適化 Apple 独自の MLX フレームワークをフル活用 ロールバック処理は「イノベーションテープ」を記録・再生する Metal カーネル で実装し、長い生成でもオーバーヘッドを最小化 精度を落とさない exact speculative decoding(ロスレス) ベンチマーク Qwen3.5-9B モデルで 4.1 倍のスループット向上が確認されています。27B の大規模モデルでもクラウド API に匹敵する速度で動作するとされています。 インストールと使い方 インストール 1 2 3 git clone https://github.com/aryagm/dflash-mlx.git cd dflash-mlx uv sync CLI で実行 1 uv run dflash-mlx --max-new-tokens 128 Python から利用 1 2 3 4 from dflash_mlx import DFlashGenerator runner = DFlashGenerator() result = runner.generate("Write a quicksort in Python.", max_new_tokens=128) 対話型チャット 1 uv run dflash-mlx-chat 対応モデル ターゲットモデル ドラフトモデル mlx-community/Qwen3-4B-bf16 z-lab/Qwen3-4B-DFlash-b16 mlx-community/Qwen3.5-4B-MLX-bf16 z-lab/Qwen3.5-4B-DFlash 活用シナリオ 機密情報の要約: クラウドに送らずローカルで高速処理 コーディング支援: 大規模モデルを使いながらリアルタイムに近いレスポンス コスト削減: API 利用料ゼロで高品質な推論 まとめ DFlash は Apple Silicon の性能を最大限に引き出す投機的デコード技術です。MLX の最適化と組み合わせることで、プライバシーを守りながらクラウド並みの速度でローカル LLM を活用できるようになります。M4/M5 Mac ユーザーにとって試す価値の高いツールです。 ...

2026年4月15日 · 1 分

ローカルLLM比較(2026年春)

概要 2026年春時点でローカル実行(オンプレミス・デバイス上)が現実的な主要 LLM の比較。いずれも Apache 2.0 または MIT ライセンスで商用利用可能。API 従量課金に依存しないアーキテクチャの実現に活用される。 主要3モデルの特性比較 項目 Gemma 4 31B Qwen3.5-27B BitNet b1.58 2B 開発元 Google DeepMind Alibaba Qwen Microsoft Research パラメータ 31B 27B 2.4B ライセンス Apache 2.0 Apache 2.0 MIT 4bit メモリ 約19GB 約16.7GB 0.4GB(ネイティブ1.58bit) CPU 推論 llama.cpp 経由 llama.cpp 経由 ネイティブ対応 マルチモーダル 画像・音声 画像・音声・動画 テキストのみ コンテキスト長 256K 262K(最大1M) 限定的 MMLU Pro 85.2% 86.1% —(MMLU 約52%) ユースケース別の選び方 ユースケース 推奨モデル 理由 推論・数学タスク Gemma 4 31B AIME 89.2%の突出した性能 コーディング支援 Qwen3.5-27B SWE-bench 72.4%の実務対応力 マルチモーダル(OCR含む) Gemma 4 31B 日本語テキスト画像にも対応 24GB メモリ環境での運用 Qwen3.5-27B 4bit で 16.7GB と余裕がある 省メモリ・省電力最優先 BitNet 2B 0.4GB で動作、最大82%省エネ GPU なしのローエンド PC BitNet 2B CPU 専用最適化カーネルで高速 長コンテキスト(1M) Qwen3.5-27B 1M トークンへの拡張対応 Apple Silicon での実行 モデル Ollama MLX サポート 推奨メモリ Gemma 4 31B 対応 vMLX 1.3.26+ が必要 32GB 以上 Qwen3.5-27B 対応 mlx-community で成熟 24GB 以上 BitNet 2B 要確認 — 8GB でも動作可能 Claude レート制限フォールバック構成 Claude Max のレート制限($200/月で3時間で消費する事例あり)への対策として、Mac Mini + ローカルモデルの組み合わせが有効。 ...

2026年4月15日 · 2 分

Gemma 4 31B vs Qwen3.5-27B — ローカルLLM最強はどちらか

2026年春、ローカルで動かせる高性能 LLM の選択肢が充実してきた。中でも注目なのが Google の Gemma 4 31B(2026年4月リリース、Apache 2.0)と Alibaba の Qwen3.5-27B(2026年2月リリース)だ。どちらも密(dense)モデルで、Apple Silicon Mac や RTX 4090 クラスの GPU で実用的に動作する。 結論を先に述べると、推論・マルチモーダルなら Gemma 4、コーディング・メモリ効率なら Qwen3.5 が適している。本記事では、その判断根拠を主要な観点から比較する。 基本スペック比較 項目 Gemma 4 31B Qwen3.5-27B パラメータ数 31B 27B アーキテクチャ Dense Transformer(Hybrid Attention) Dense(Gated Delta Net + FFN) コンテキスト長 256K トークン 262K トークン(最大 1M 拡張可) 対応言語 140+ 言語 201 言語 マルチモーダル ビジョン(画像理解・OCR) ビジョン(画像理解) ライセンス Apache 2.0 Apache 2.0 開発元 Google DeepMind Alibaba Qwen 両モデルとも Apache 2.0 ライセンスで、商用利用に制限がない。コンテキスト長はほぼ同等だが、Qwen3.5 は 1M トークンまでの拡張に対応している点で有利だ。 ...

2026年4月7日 · 3 分

Gemma 4 31Bの脱獄モデル「CRACK」登場 — Abliteration技術でセーフティを除去

Google の Gemma 4 31B モデルをベースに、安全性制限を除去した「Gemma-4-31B-JANG_4M-CRACK」が Hugging Face で公開された。開発元の dealignai は、Abliteration(アブリテレーション)と呼ばれる手法でモデルの拒否行動を除去した。知識性能の劣化は MMLU で -2.0% にとどまる。 Abliteration とは何か Abliteration は、LLM の学習済み拒否メカニズムを再学習なしで除去する手法だ。2024年頃から研究が進み、現在では複数のバリエーションが存在する。 基本的な仕組みは以下の通り: 拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム(Transformer 内部の中間表現が流れる経路)の活性化を記録する。両者の平均差分ベクトルが「拒否方向」(refusal direction)となる 重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化(orthogonalization)する。直感的には、拒否方向の成分を重みから差し引く操作にあたる。これにより、モデルはその方向への活性化を生成できなくなる 性能保持: 拒否方向のみをターゲットにするため、モデルの汎用的な知識や推論能力への影響は最小限に抑えられる 最近の改良版である Norm-Preserving Biprojected Abliteration では、ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えている。 CRACK モデルのスペック 項目 値 ベースモデル google/gemma-4-31b-it アーキテクチャ Dense Transformer + Hybrid Sliding/Global Attention 量子化プロファイル JANG_4M(CRITICAL=8-bit, COMPRESS=4-bit) 平均ビット数 5.1 bits モデルサイズ 18 GB ビジョン マルチモーダル対応(ビジョンエンコーダは量子化せず float16 を維持) フォーマット JANG v2(MLX ネイティブ safetensors) JANG_4M のビット割り当て JANG プロファイルの特徴は、アテンション層とMLP層で異なるビット精度を割り当てる点にある: CRITICAL(8-bit): Attention の Q/K/V/O 重み、エンベディング COMPRESS(4-bit): MLP の gate/up/down projection、その他の重み Dense モデルは MLP 部分の量子化耐性が高いため、この戦略により 18GB という実用的なサイズを実現している。 ...

2026年4月6日 · 1 分