Claude Code に「目」を与える --- ローカル VLM で画像・動画をコンテキスト消費ゼロで理解させる
Claude Code に「目」を与える — ローカル VLM で画像・動画をコンテキスト消費ゼロで理解させる @ShadeLurk 氏が X で公開した記事が注目を集めています。 Claude Code に「目」を作る — コンテキストを 1 トークンも使わずに動画を理解させる方法 Claude Code で画像や動画を扱うと、1 枚あたり数千トークンがコンテキストから消えます。ローカル VLM(Qwen3-VL 等)を MCP サーバー経由で接続し、画像処理をオフロードすることで、Claude Code のコンテキストを一切消費せずにビジュアル情報を扱う手法が提案されています。本記事では、この問題の構造と解決アプローチを技術的に解説します。 問題 — 画像 1 枚で数千トークンが消える Claude のビジョン処理とトークン消費 Claude API でのビジョン処理は、画像をトークンに変換してコンテキストウィンドウに載せる仕組みです。Anthropic の公式ドキュメントによると、トークン消費量は以下の式で算出されます。 tokens = (width px × height px) / 750 画像サイズ トークン数 1,000 枚あたりのコスト 200x200 px(0.04 MP) 約 54 約 $0.16 1000x1000 px(1 MP) 約 1,334 約 $4.00 1092x1092 px(1.19 MP) 約 1,590 約 $4.80 1 枚の高解像度スクリーンショットで 約 1,600 トークンが消費されます。Claude Code のコンテキストウィンドウは約 200,000 トークンですが、システムプロンプト・CLAUDE.md・会話履歴・MCP ツール定義などが既に占有しているため、実質的に使える容量は限られています。 ...