DFlash

概要 DFlash(Block Diffusion for Flash Speculative Decoding)は投機的デコードを発展させた推論加速技術の MLX 実装(dflash-mlx)。Qwen3.5-9B モデルで 4.1 倍のスループット向上を達成。精度を落とさない exact speculative decoding(ロスレス)。 仕組み 通常の推測デコードは小さなドラフトモデルが 1 トークンずつ予測するのに対し、DFlash はドラフトモデルが 16 トークンを並列生成。ターゲットモデルが 1 回のフォワードパスでまとめて検証するため大幅なスループット向上を実現。Apple 独自の Metal カーネルでロールバック処理を実装しオーバーヘッドを最小化。 インストール 1 2 3 4 git clone https://github.com/aryagm/dflash-mlx.git cd dflash-mlx uv sync uv run dflash-mlx --max-new-tokens 128 関連ページ ローカル LLM 比較 ソース記事 MacのローカルLLMが4.1倍速に!Apple Silicon向け新技術「DFlash」 — 2026-04-15

2026年4月23日 · 1 分