トークン削減

「言語税」対策として CLAUDE.md を英語化する — 日本語境界を残したまま prompt caching を効かせる部分英語化パターン

背景: 日本語の「言語税」をどこで払うか先日の記事で、日本語入出力が英語比 1.48 倍のトークンを消費すること、Claude では最大 1.94 倍にもなることを取り上げた。しかし現実問題、ブログ記事本文・コミットメッセージ・GitHub PR の説明・許可プロンプトなど、最終アウトプットが日本語であること自体が要求であるケースは避けられない。Claude Code を使い続ける限り、日本語コストはゼロにはならない。問いを言い換えると、こうなる: 「日本語境界を保ったまま、実トークン消費を構造的に減らせる場所はどこか？」検討した 5 案案仕組み効く場面弱点 A. 翻訳プロキシ (Ollama) ユーザー入力 ja→en、Claude 応答 en→ja を中間 LLM が翻訳「思考・指示が日本語で出来ればよい」用途ツール結果・ファイル内容・git diff まで翻訳経路に入り破綻 B. 部分英語化思考・指示は英語、最終成果物は日本語のまま大半の開発作業削減率は応答側ほど効かない C. Prompt Caching 徹底 CLAUDE.md・Skills・MCP 出力をキャッシュ日本語のまま実コストを大幅削減設計工数が必要 D. Caveman プロンプト「原始人みたいに喋れ」で日本語応答を圧縮既存実績手法（最大 80% 削減）文体が崩れるので公開記事には不向き E. モデル切替 Gemini など日本語効率の良いモデルへ部分委譲翻訳・要約などコモディティ作業 Claude のハーネス連携を捨てる翻訳プロキシ案 (A) が筋悪な理由「ローカル LLM で Claude Code の入出力を翻訳する」というアイデアは一見魅力的だが、Claude Code は対話 AI ではなくエージェント環境であることを思い出す必要がある。 ...

CLAUDE.md+SKILL.md 英語化で 37.6% トークン削減 — tiktoken による実測結果と内訳

結論を先に CLAUDE.md と 4 つの SKILL.md を日本語から英語に書き換えた結果、毎セッション読み込まれる固定資産のトークン量が 13,538 → 8,441（-37.6%、絶対値で 5,097 トークン削減）になった。文字数は逆に +49% 増えているのに、トークンは大幅に減るという一見矛盾した結果である。理由と内訳を以下に示す。背景 CLAUDE.md 英語化の記事と Skills 英語化 PR (#394) の続編。前 2 つの作業で、ハーネスの「内側」（LLM だけが読む固定資産）を英語化し、「外側」（人間が読むブログ記事や許可プロンプト）は日本語のまま維持する部分英語化パターンを実装した。ただし、その記事では「Anthropic 公開の日本語比率 1.94x」から推定 48% 削減とラフに見積もっていた。実際の効果は推定モデル次第で 2% 〜 48% と幅があり、本当の値を知るには実測しかない。計測手法 tiktoken (cl100k_base) を採用理由: オフラインで動く、API key 不要、結果が再現可能限界: Anthropic Claude のトークナイザーではなく OpenAI GPT-4 系。ただし日本語のトークン化挙動は近似として広く使われる対案: Anthropic SDK の count_tokens API が最も正確だが、API キーが必要 venv で隔離 PEP 668 で system Python が保護されているため、.claude/temp/venv-tiktoken/ に隔離した venv を作って tiktoken だけ入れた。 ...

コンテキスト圧縮

概要 LLM のコンテキストウィンドウには上限がある。会話が長くなると古い情報を捨てるか圧縮する必要があり、その戦略設計は AI コーディングエージェントの中心課題。 Claude Code の5つの圧縮戦略軽量な処理から順にカスケードとして適用される: Microcompact — 古いツール結果を時間ベースで消去（API 呼び出し不要） Context Collapse — 会話の部分範囲を要約で置換（直近の文脈は保持） Session Memory — 重要情報を別ファイルに永続化（/compact 手動実行時にも使用） Full Compact — 履歴全体を包括的に要約（auto-compact: 約33Kトークンのバッファ残し） PTL Truncation — 最も古いメッセージ群を切り落とす最終手段カスケードの流れツール結果バジェッティング → Microcompact → Context Collapse → Full Compact → PTL Truncation 実用的な対策タスクの区切りで /compact を手動実行する圧縮で失われたくない情報は CLAUDE.md に記載する異なるタスク間では /clear でリセットする大きな出力はサブエージェントに委任する関連ページ Claude Code — この圧縮戦略を実装しているツール LLM Wiki パターン — 知識の永続化という関連アプローチソース記事 Claude Code のコンテキスト圧縮戦略 — ソースコードから見える5つのアプローチ — 2026-04-02