概要
DFlash(Block Diffusion for Flash Speculative Decoding)は投機的デコードを発展させた推論加速技術の MLX 実装(dflash-mlx)。Qwen3.5-9B モデルで 4.1 倍のスループット向上を達成。精度を落とさない exact speculative decoding(ロスレス)。
仕組み
通常の推測デコードは小さなドラフトモデルが 1 トークンずつ予測するのに対し、DFlash はドラフトモデルが 16 トークンを並列生成。ターゲットモデルが 1 回のフォワードパスでまとめて検証するため大幅なスループット向上を実現。Apple 独自の Metal カーネルでロールバック処理を実装しオーバーヘッドを最小化。
インストール
| |
関連ページ
ソース記事
- MacのローカルLLMが4.1倍速に!Apple Silicon向け新技術「DFlash」 — 2026-04-15