概要

DFlash(Block Diffusion for Flash Speculative Decoding)は投機的デコードを発展させた推論加速技術の MLX 実装(dflash-mlx)。Qwen3.5-9B モデルで 4.1 倍のスループット向上を達成。精度を落とさない exact speculative decoding(ロスレス)。

仕組み

通常の推測デコードは小さなドラフトモデルが 1 トークンずつ予測するのに対し、DFlash はドラフトモデルが 16 トークンを並列生成。ターゲットモデルが 1 回のフォワードパスでまとめて検証するため大幅なスループット向上を実現。Apple 独自の Metal カーネルでロールバック処理を実装しオーバーヘッドを最小化。

インストール

1
2
3
4
git clone https://github.com/aryagm/dflash-mlx.git
cd dflash-mlx
uv sync
uv run dflash-mlx --max-new-tokens 128

関連ページ

ソース記事