Prefix-Caching

Claude Code を Anthropic の API ではなく、手元のマシンで動かすローカル LLM サーバーに接続することで、API コストをゼロにしながら最強のコーディングエージェントを使い倒せる。本記事では vLLM + MiniMax-M2.7 を組み合わせた構成を紹介する。なぜローカル LLM で Claude Code を動かすのか課題解決策 API 費用が嵩むローカル推論でコストゼロ機密コードをクラウドに送りたくないデータがマシン外に出ないレスポンスが遅い vLLM の高速推論エンジン開発コストを抑えつつ、機密性の高いコードのデバッグや大規模リファクタリングにも安心して使える環境が手に入る。技術スタック vLLM — OpenAI 互換 / Anthropic 互換の高速推論サーバー MiniMax-M2.7 — Claude Code との相性が高いオープンモデル（コーディング・エージェント特化） Prefix Caching — 繰り返し送信されるシステムプロンプトをキャッシュしてレイテンシをほぼゼロに vLLM で MiniMax-M2.7 を起動する必要なハードウェア構成 GPU メモリ KV Cache 4× GPU 96 GB × 4 400K トークン 8× GPU 144 GB × 8 3M トークンサーバー起動コマンド 4× GPU 構成（推奨）: ...