DFlash

概要 DFlash(Block Diffusion for Flash Speculative Decoding)は投機的デコードを発展させた推論加速技術の MLX 実装(dflash-mlx)。Qwen3.5-9B モデルで 4.1 倍のスループット向上を達成。精度を落とさない exact speculative decoding(ロスレス)。 仕組み 通常の推測デコードは小さなドラフトモデルが 1 トークンずつ予測するのに対し、DFlash はドラフトモデルが 16 トークンを並列生成。ターゲットモデルが 1 回のフォワードパスでまとめて検証するため大幅なスループット向上を実現。Apple 独自の Metal カーネルでロールバック処理を実装しオーバーヘッドを最小化。 インストール 1 2 3 4 git clone https://github.com/aryagm/dflash-mlx.git cd dflash-mlx uv sync uv run dflash-mlx --max-new-tokens 128 関連ページ ローカル LLM 比較 ソース記事 MacのローカルLLMが4.1倍速に!Apple Silicon向け新技術「DFlash」 — 2026-04-15

2026年4月23日 · 1 分

MacのローカルLLMが4.1倍速に!Apple Silicon向け新技術「DFlash」

Apple Silicon(M4/M5 Max など)搭載の Mac で、ローカル LLM を最大 4.1 倍高速化する新技術「DFlash」のオープンソース実装が公開されました。精度を落とさずに推論速度だけを大幅に向上できる点が注目されています。 DFlash とは DFlash(Block Diffusion for Flash Speculative Decoding)は、投機的デコード(Speculative Decoding)を発展させた推論加速技術です。論文「Block Diffusion for Flash Speculative Decoding」で提案された手法を、Apple の MLX フレームワーク向けに実装したものが dflash-mlx として公開されています。 仕組み 推測デコード(Speculative Decoding) 通常の推測デコードでは、小さな「ドラフトモデル」が次のトークンを予測し、大きな「ターゲットモデル」がそれを検証します。ドラフトの予測が正しければそのまま採用するため、検証パスを有効活用してスループットを上げます。 ブロック拡散(Block Diffusion) DFlash では、ドラフトモデルが 1 トークンずつではなく 16 トークンをまとめて並列生成します。ターゲットモデルは 1 回のフォワードパスでこれらをまとめて検証するため、大幅なスループット向上が実現します。 Apple Silicon / MLX への最適化 Apple 独自の MLX フレームワークをフル活用 ロールバック処理は「イノベーションテープ」を記録・再生する Metal カーネル で実装し、長い生成でもオーバーヘッドを最小化 精度を落とさない exact speculative decoding(ロスレス) ベンチマーク Qwen3.5-9B モデルで 4.1 倍のスループット向上が確認されています。27B の大規模モデルでもクラウド API に匹敵する速度で動作するとされています。 インストールと使い方 インストール 1 2 3 git clone https://github.com/aryagm/dflash-mlx.git cd dflash-mlx uv sync CLI で実行 1 uv run dflash-mlx --max-new-tokens 128 Python から利用 1 2 3 4 from dflash_mlx import DFlashGenerator runner = DFlashGenerator() result = runner.generate("Write a quicksort in Python.", max_new_tokens=128) 対話型チャット 1 uv run dflash-mlx-chat 対応モデル ターゲットモデル ドラフトモデル mlx-community/Qwen3-4B-bf16 z-lab/Qwen3-4B-DFlash-b16 mlx-community/Qwen3.5-4B-MLX-bf16 z-lab/Qwen3.5-4B-DFlash 活用シナリオ 機密情報の要約: クラウドに送らずローカルで高速処理 コーディング支援: 大規模モデルを使いながらリアルタイムに近いレスポンス コスト削減: API 利用料ゼロで高品質な推論 まとめ DFlash は Apple Silicon の性能を最大限に引き出す投機的デコード技術です。MLX の最適化と組み合わせることで、プライバシーを守りながらクラウド並みの速度でローカル LLM を活用できるようになります。M4/M5 Mac ユーザーにとって試す価値の高いツールです。 ...

2026年4月15日 · 1 分

Gemma 4 31Bの脱獄モデル「CRACK」登場 — Abliteration技術でセーフティを除去

Google の Gemma 4 31B モデルをベースに、安全性制限を除去した「Gemma-4-31B-JANG_4M-CRACK」が Hugging Face で公開された。開発元の dealignai は、Abliteration(アブリテレーション)と呼ばれる手法でモデルの拒否行動を除去した。知識性能の劣化は MMLU で -2.0% にとどまる。 Abliteration とは何か Abliteration は、LLM の学習済み拒否メカニズムを再学習なしで除去する手法だ。2024年頃から研究が進み、現在では複数のバリエーションが存在する。 基本的な仕組みは以下の通り: 拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム(Transformer 内部の中間表現が流れる経路)の活性化を記録する。両者の平均差分ベクトルが「拒否方向」(refusal direction)となる 重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化(orthogonalization)する。直感的には、拒否方向の成分を重みから差し引く操作にあたる。これにより、モデルはその方向への活性化を生成できなくなる 性能保持: 拒否方向のみをターゲットにするため、モデルの汎用的な知識や推論能力への影響は最小限に抑えられる 最近の改良版である Norm-Preserving Biprojected Abliteration では、ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えている。 CRACK モデルのスペック 項目 値 ベースモデル google/gemma-4-31b-it アーキテクチャ Dense Transformer + Hybrid Sliding/Global Attention 量子化プロファイル JANG_4M(CRITICAL=8-bit, COMPRESS=4-bit) 平均ビット数 5.1 bits モデルサイズ 18 GB ビジョン マルチモーダル対応(ビジョンエンコーダは量子化せず float16 を維持) フォーマット JANG v2(MLX ネイティブ safetensors) JANG_4M のビット割り当て JANG プロファイルの特徴は、アテンション層とMLP層で異なるビット精度を割り当てる点にある: CRITICAL(8-bit): Attention の Q/K/V/O 重み、エンベディング COMPRESS(4-bit): MLP の gate/up/down projection、その他の重み Dense モデルは MLP 部分の量子化耐性が高いため、この戦略により 18GB という実用的なサイズを実現している。 ...

2026年4月6日 · 1 分