ローカルLLM

DeepSeek-V4 Preview — Claude Opus 4.6 匹敵・100万トークン対応のオープンソース LLM が無償公開

DeepSeek-AI が 2026 年 4 月 24 日、100 万トークンのコンテキスト長に対応したオープンソース AI モデル「DeepSeek-V4 Preview」を公開した。コーディング競技プラットフォーム Codeforces では GPT-5.4 を上回るレーティングを記録。コーディングベンチマークでは Claude Opus 4.6 にほぼ匹敵する性能を持ちながら MIT ライセンスで無償公開されるという、衝撃的なリリースとなった。 DeepSeek-V4 の概要 DeepSeek-V4 Preview は Pro と Flash の 2 バリアントで構成される。モデル総パラメータ数推論時アクティブパラメータ数 DeepSeek-V4-Pro 1 兆 6,000 億 490 億 DeepSeek-V4-Flash 2,840 億 130 億いずれも Mixture-of-Experts（MoE）アーキテクチャを採用しており、推論時には全パラメータの一部のみを活性化することで高い効率を実現している。アーキテクチャの革新：ハイブリッドアテンション DeepSeek-V4 の技術的な目玉は「ハイブリッドアテンション機構」だ。トークン単位の圧縮と DSA（DeepSeek Sparse Attention）を組み合わせることで、前世代と比較して：推論演算量を約 73% 削減 KV キャッシュサイズを約 90% 削減これにより、100 万トークンという非常に長いコンテキストをより少ないリソースで扱えるようになった。実用上は長い会話履歴・大きなコードベース・長文ドキュメントを一度のプロンプトに収められるため、エージェント系ユースケースとの相性が良い。ベンチマーク性能 Codeforces で GPT-5.4 超えコーディング競技プラットフォーム Codeforces でのレーティングは 3,206（V4-Pro）を記録し、GPT-5.4 の 3,168 を上回るスコアを達成した。コーディング能力においてオープンソースモデルとして最先端の水準に到達した形だ。 ...

Claude Code をローカル LLM（vLLM + MiniMax-M2.7）で爆速稼働させる方法

Claude Code を Anthropic の API ではなく、手元のマシンで動かすローカル LLM サーバーに接続することで、API コストをゼロにしながら最強のコーディングエージェントを使い倒せる。本記事では vLLM + MiniMax-M2.7 を組み合わせた構成を紹介する。なぜローカル LLM で Claude Code を動かすのか課題解決策 API 費用が嵩むローカル推論でコストゼロ機密コードをクラウドに送りたくないデータがマシン外に出ないレスポンスが遅い vLLM の高速推論エンジン開発コストを抑えつつ、機密性の高いコードのデバッグや大規模リファクタリングにも安心して使える環境が手に入る。技術スタック vLLM — OpenAI 互換 / Anthropic 互換の高速推論サーバー MiniMax-M2.7 — Claude Code との相性が高いオープンモデル（コーディング・エージェント特化） Prefix Caching — 繰り返し送信されるシステムプロンプトをキャッシュしてレイテンシをほぼゼロに vLLM で MiniMax-M2.7 を起動する必要なハードウェア構成 GPU メモリ KV Cache 4× GPU 96 GB × 4 400K トークン 8× GPU 144 GB × 8 3M トークンサーバー起動コマンド 4× GPU 構成（推奨）: ...

DFlash

概要 DFlash（Block Diffusion for Flash Speculative Decoding）は投機的デコードを発展させた推論加速技術の MLX 実装（dflash-mlx）。Qwen3.5-9B モデルで 4.1 倍のスループット向上を達成。精度を落とさない exact speculative decoding（ロスレス）。仕組み通常の推測デコードは小さなドラフトモデルが 1 トークンずつ予測するのに対し、DFlash はドラフトモデルが 16 トークンを並列生成。ターゲットモデルが 1 回のフォワードパスでまとめて検証するため大幅なスループット向上を実現。Apple 独自の Metal カーネルでロールバック処理を実装しオーバーヘッドを最小化。インストール 1 2 3 4 git clone https://github.com/aryagm/dflash-mlx.git cd dflash-mlx uv sync uv run dflash-mlx --max-new-tokens 128 関連ページローカル LLM 比較ソース記事 MacのローカルLLMが4.1倍速に！Apple Silicon向け新技術「DFlash」 — 2026-04-15

CanIRun.ai — ブラウザだけで自分のPCがどのローカルAIを動かせるか即判定

「自分のPCでローカルAIを動かしたい、でもどのモデルが動くか分からない」。そんな悩みを一発で解決してくれる Web サービスが CanIRun.ai だ。インストール不要、登録不要で、サイトにアクセスするだけでハードウェアを自動検出し、数百のモデルに対して動作可否を判定してくれる。何ができるのか CanIRun.ai は、ブラウザの WebGPU API を使って以下のハードウェア情報を自動取得する。 GPU の種類と VRAM 容量（GPU 名を WebGPU/WebGL で取得し、内部 DB から VRAM を割り出す） GPU メモリ帯域幅（内部スペックシート DB から参照）システム RAM CPU コア数取得した情報をもとに、カタログに登録された全モデルとの適合性を即座に算出する。 6 段階の互換性評価各モデルに対して、S〜F の 6 段階グレードが色分けで表示される。グレードラベル意味 S Runs great 余裕で動作 A Runs well 快適に動作 B Decent まずまず動作 C Tight fit ギリギリ動作 D Barely runs かろうじて動作 F Too heavy 動作不可グレードに加え、アーキテクチャの種類・コンテキストウィンドウサイズ・量子化レベル（Q2_K〜F16 といった精度とサイズのトレードオフを示すレベル）ごとのメモリ要件など、詳細な技術情報も確認できる。対応モデルの幅広さカタログは 1GB 未満の軽量モデルから数百 GB の巨大モデルまで網羅している。 ...

Open-notebook — NotebookLM をセルフホストできる完全ローカル OSS

Google の NotebookLM に触発されたオープンソース実装 open-notebook が海外のテック界隈で注目を集めている。データを一切外部に送信しない完全ローカル動作を売りに、Docker で約2分で立ち上げられる手軽さも人気の理由だ。 open-notebook とは open-notebook は、NotebookLM の主要機能をすべて再実装した OSS プロジェクト。2024年10月に公開され、2026年4月時点で 22,000 スター超を獲得している。公式サイト: open-notebook.ai 主な機能マルチソースの知識統合 PDF・動画・音声・ウェブページを横断で読み込ませ、AI とのチャット形式で対話できる。NotebookLM と同様の使い勝手を、完全ローカル環境で実現する。多数の AI バックエンドに対応 OpenAI・Anthropic（Claude）・Google Gemini・Ollama・Mistral・Groq・xAI・Deepseek など主要なプロバイダーを幅広くサポートしている。バックエンド備考 Anthropic (Claude) クラウド OpenAI (GPT) クラウド Google Gemini クラウド Ollama ローカル・完全無料 Mistral / Groq / xAI / Deepseek などクラウド Ollama を選択すれば、外部サービスへの通信がゼロのオフライン環境でも完全無料で運用できる。ポッドキャスト風音声の生成複数の話者でポッドキャスト形式の音声を自動生成できる。NotebookLM が2人固定なのに対し、open-notebook は話者数をカスタマイズ可能な点が差別化ポイント。 REST API 完備 REST API が標準搭載されているため、企業内アプリへの組み込みや外部サービスとの連携が容易。n8n や LangChain などのワークフローツールからも呼び出せる。日本語 UI 対応インターフェースが日本語に対応しており、日本のユーザーでもすぐに使い始められる。 ...

Claude のレート制限対策に Mac Mini とローカルモデルを活用する — Agent を指揮する時代へ

Claude Max のレート制限問題と現実的な解決策 Claude Max に月 $200 を投じて、たった3時間で使い切ってしまった——そんな体験談がきっかけで生まれた、実用的な AI インフラ構成が話題になっています。解決策はシンプルです。$599 の Mac Mini に5つのローカルモデル（合計約 350 億パラメーター）を用意し、Claude がレート制限に達したら自動でローカルモデルに切り替えるというものです。構成の概要この構成で実現していること：メール整理の自動化: エージェントがメールを分類・返信ドラフトを生成コンテキスト圧縮: 長い会話履歴を自動的に要約して継続利用深夜の継続稼働: 就寝中もエージェントが動き続ける自動フォールバック: 深夜4時に Claude がレート制限に達すると、ローカルモデルが自動で引き継ぎコスト比較が圧倒的です。同じ業務を3人のエンジニアに依頼すると月 $15,000。これが Mac Mini 一台 + ローカルモデルで代替できるとするなら、ROI は明白です。なぜ Mac Mini が選ばれるのか Apple Silicon 搭載の Mac Mini は、ローカル LLM の実行環境として優れた特性を持っています：統合メモリ（Unified Memory）: CPU と GPU が同一メモリを共有するため、大容量モデルのロードが高速省電力: 24時間稼働でも電気代が安い MLX フレームワーク: Apple が開発した機械学習フレームワークで、Apple Silicon 上の推論速度が大幅に向上静音設計: 自宅・オフィスでも気にならない実際に Gemma 4、Qwen 3、Mistral などの 350 億パラメーター級モデルを複数搭載し、タスクに応じて使い分けることができます。 ...

MacのローカルLLMが4.1倍速に！Apple Silicon向け新技術「DFlash」

Apple Silicon（M4/M5 Max など）搭載の Mac で、ローカル LLM を最大 4.1 倍高速化する新技術「DFlash」のオープンソース実装が公開されました。精度を落とさずに推論速度だけを大幅に向上できる点が注目されています。 DFlash とは DFlash（Block Diffusion for Flash Speculative Decoding）は、投機的デコード（Speculative Decoding）を発展させた推論加速技術です。論文「Block Diffusion for Flash Speculative Decoding」で提案された手法を、Apple の MLX フレームワーク向けに実装したものが dflash-mlx として公開されています。仕組み推測デコード（Speculative Decoding）通常の推測デコードでは、小さな「ドラフトモデル」が次のトークンを予測し、大きな「ターゲットモデル」がそれを検証します。ドラフトの予測が正しければそのまま採用するため、検証パスを有効活用してスループットを上げます。ブロック拡散（Block Diffusion） DFlash では、ドラフトモデルが 1 トークンずつではなく 16 トークンをまとめて並列生成します。ターゲットモデルは 1 回のフォワードパスでこれらをまとめて検証するため、大幅なスループット向上が実現します。 Apple Silicon / MLX への最適化 Apple 独自の MLX フレームワークをフル活用ロールバック処理は「イノベーションテープ」を記録・再生する Metal カーネルで実装し、長い生成でもオーバーヘッドを最小化精度を落とさない exact speculative decoding（ロスレス）ベンチマーク Qwen3.5-9B モデルで 4.1 倍のスループット向上が確認されています。27B の大規模モデルでもクラウド API に匹敵する速度で動作するとされています。インストールと使い方インストール 1 2 3 git clone https://github.com/aryagm/dflash-mlx.git cd dflash-mlx uv sync CLI で実行 1 uv run dflash-mlx --max-new-tokens 128 Python から利用 1 2 3 4 from dflash_mlx import DFlashGenerator runner = DFlashGenerator() result = runner.generate("Write a quicksort in Python.", max_new_tokens=128) 対話型チャット 1 uv run dflash-mlx-chat 対応モデルターゲットモデルドラフトモデル mlx-community/Qwen3-4B-bf16 z-lab/Qwen3-4B-DFlash-b16 mlx-community/Qwen3.5-4B-MLX-bf16 z-lab/Qwen3.5-4B-DFlash 活用シナリオ機密情報の要約: クラウドに送らずローカルで高速処理コーディング支援: 大規模モデルを使いながらリアルタイムに近いレスポンスコスト削減: API 利用料ゼロで高品質な推論まとめ DFlash は Apple Silicon の性能を最大限に引き出す投機的デコード技術です。MLX の最適化と組み合わせることで、プライバシーを守りながらクラウド並みの速度でローカル LLM を活用できるようになります。M4/M5 Mac ユーザーにとって試す価値の高いツールです。 ...

Qwen（クウェン）

概要 Alibaba の Qwen チームが開発・公開する大規模言語モデルシリーズ。Apache 2.0 ライセンスで商用利用可能。コーディング性能、長コンテキスト対応、メモリ効率のバランスが優れており、ローカル LLM として実用性の高い選択肢。 Qwen3.5-27B の主要スペック項目内容パラメータ数 27B アーキテクチャ Dense（Gated Delta Net + FFN）コンテキスト長 262K トークン（最大 1M 拡張可）対応言語 201 言語マルチモーダルビジョン（画像理解）ライセンス Apache 2.0 リリース 2026年2月ベンチマーク（Qwen3.5-27B）ベンチマークスコア備考 SWE-bench Verified 72.4% コーディング課題解決 LiveCodeBench 80.7% コーディング性能 MMLU-Pro 86.1% 知識・推論 GPQA Diamond 85.5% 科学的推論メモリ要件量子化モデルサイズ必要メモリ Q4_K_M（4bit）約 16.7 GB 18 GB+ Q8_0（8bit）約 30 GB 32 GB+ FP16 約 54 GB 56 GB+ 4bit 量子化で 16.7GB と、24GB メモリ環境（RTX 4090 / M2 Mac 24GB）で余裕を持って動作する。 ...

ローカルLLM比較（2026年春）

概要 2026年春時点でローカル実行（オンプレミス・デバイス上）が現実的な主要 LLM の比較。いずれも Apache 2.0 または MIT ライセンスで商用利用可能。API 従量課金に依存しないアーキテクチャの実現に活用される。主要3モデルの特性比較項目 Gemma 4 31B Qwen3.5-27B BitNet b1.58 2B 開発元 Google DeepMind Alibaba Qwen Microsoft Research パラメータ 31B 27B 2.4B ライセンス Apache 2.0 Apache 2.0 MIT 4bit メモリ約19GB 約16.7GB 0.4GB（ネイティブ1.58bit） CPU 推論 llama.cpp 経由 llama.cpp 経由ネイティブ対応マルチモーダル画像・音声画像・音声・動画テキストのみコンテキスト長 256K 262K（最大1M）限定的 MMLU Pro 85.2% 86.1% —（MMLU 約52%）ユースケース別の選び方ユースケース推奨モデル理由推論・数学タスク Gemma 4 31B AIME 89.2%の突出した性能コーディング支援 Qwen3.5-27B SWE-bench 72.4%の実務対応力マルチモーダル（OCR含む） Gemma 4 31B 日本語テキスト画像にも対応 24GB メモリ環境での運用 Qwen3.5-27B 4bit で 16.7GB と余裕がある省メモリ・省電力最優先 BitNet 2B 0.4GB で動作、最大82%省エネ GPU なしのローエンド PC BitNet 2B CPU 専用最適化カーネルで高速長コンテキスト（1M） Qwen3.5-27B 1M トークンへの拡張対応 Apple Silicon での実行モデル Ollama MLX サポート推奨メモリ Gemma 4 31B 対応 vMLX 1.3.26+ が必要 32GB 以上 Qwen3.5-27B 対応 mlx-community で成熟 24GB 以上 BitNet 2B 要確認 — 8GB でも動作可能 Claude レート制限フォールバック構成 Claude Max のレート制限（$200/月で3時間で消費する事例あり）への対策として、Mac Mini + ローカルモデルの組み合わせが有効。 ...

BitNet

概要 Microsoft Research が開発し 2026年にオープンソース（MIT ライセンス）化した 1-bit LLM 専用推論フレームワーク。すべての重みを -1、0、+1 の3値（log2(3) ≒ 1.58bit）で表現し、GPU なしで CPU 上での実用的な LLM 推論を実現する。GitHub では 37,000 以上のスターを獲得している。主な特徴 GPU 不要の CPU 推論 llama.cpp をベースに 1-bit 推論向けに最適化した C++ フレームワーク（bitnet.cpp）。専用カーネルにより CPU 上で高速に動作する。 x86 CPU: 従来比 2.37〜6.17 倍の高速化 ARM CPU（Apple Silicon 含む）: 従来比 1.37〜5.07 倍の高速化 100B パラメータモデルを単一 CPU で 5〜7 トークン/秒で処理可能省メモリ・省エネルギー BitNet b1.58 2B-4T モデルのメモリ使用量: わずか 0.4GB（同規模通常モデルの 1/7〜1/20）エネルギー削減: x86 で最大 82.2%、ARM で最大 70.0% 主要モデル：BitNet b1.58 2B-4T Hugging Face で公開されている初のオープンソースネイティブ 1-bit LLM。2.4B パラメータ、4T トークンで学習。同規模フル精度モデルと同等の性能（MMLU 約 52%）を達成。 ...