LLM | hdknr blog

Codified Context — 10万行規模の開発でもAIに一貫したコードを書かせる3層メモリ手法

LLMベースのコーディングエージェント（Claude Code、Cursor など）は、セッションが変わるたびにプロジェクトの規約や過去のミスを忘れてしまう。小さなプロトタイプなら問題にならないが、10万行を超える大規模コードベースでは「毎回同じ説明をする」「直したはずのバグパターンが再発する」といったコストが無視できなくなる。 2026年2月に公開された論文 Codified Context: Infrastructure for AI Agents in a Complex Codebase（Aristidis Vasilopoulos）は、この問題に対して 3層のメモリインフラストラクチャを提案し、108,000行のC#分散システムを283セッションかけて構築した実践データとともに検証している。問題：セッション間で失われる記憶 LLMエージェントは各セッションの開始時にコンテキストがリセットされる。.cursorrules や CLAUDE.md のような単一ファイルでプロジェクト規約を伝える方法は小規模なら有効だが、10万行規模のシステムでは単一プロンプトに収まりきらない。結果として起きる典型的な問題: 命名規則やアーキテクチャパターンの逸脱過去に修正した失敗パターンの再発サブシステム間の整合性の欠如提案手法：3層の Codified Context 論文では、プロジェクト知識を負荷分散インフラストラクチャとして扱う3層アーキテクチャを提案している。 Tier 1: Hot-Memory Constitution（約660行）常にセッションにロードされるMarkdownファイル。以下を含む: コード品質基準・命名規則ビルドコマンドアーキテクチャパターンの要約よくある操作のチェックリスト既知の失敗モード（過去のバグパターン）オーケストレーション用トリガーテーブルトリガーテーブルは「どのファイルを変更したら、どの専門エージェントを呼ぶか」を定義する: ファイル変更割り当てエージェント Network, sync network-protocol-designer Coordinates, camera coordinate-wizard UI配信 ui-sync-specialist Tier 2: Specialized Agents（19エージェント、約9,300行）タスクに応じて呼び出される専門エージェント群。2つのクラスに分かれる: 高能力エージェント（8個、平均711行）: ネットワークプロトコル設計、アーキテクチャ検証、デバッグなど標準能力エージェント（11個、平均327行）: 特定タスクにフォーカス各エージェント仕様の 50%以上がプロジェクト固有のドメイン知識で構成されている。コード例、数式、失敗モードなど、そのプロジェクトでしか使えない具体的な情報が埋め込まれている点が特徴。 Tier 3: Cold-Memory Knowledge Base（34文書、約16,250行）サブシステムごとの詳細仕様をMarkdownで記述し、MCP（Model Context Protocol）検索サーバー経由でオンデマンド参照する: ...

geo-seo-claude：AI検索時代のSEO最適化をClaude Codeで自動化するオープンソースツール

ChatGPTやClaude、Perplexityなどの AI 検索エンジンに自社サイトを見つけてもらうための最適化ツール「geo-seo-claude」がオープンソースで公開されている。従来の SEO に加えて、AI が引用・参照しやすいコンテンツ構造を自動分析・提案してくれる Claude Code 用スキルだ。 GEO（Generative Engine Optimization）とは従来の SEO が Google などの検索エンジンでの上位表示を目指すのに対し、GEO は AI 検索エンジン（ChatGPT、Claude、Perplexity、Gemini、Google AI Overviews）での「引用されやすさ」を最適化する考え方だ。 AI がウェブ上の情報を参照して回答を生成する際、どのサイトが引用されるかは以下のような要素に左右される：コンテンツの構造化の度合い AI クローラーへのアクセス許可（robots.txt）ブランドの権威性（各プラットフォームでの言及）スキーママークアップの品質 geo-seo-claude の主な機能引用可能性スコアリング（Citability Scoring）コンテンツが AI に引用されやすい構造になっているかを評価する。134〜167語の最適な段落長、明確な見出し構造、事実ベースの記述かどうかなどをチェックする。 AI クローラー分析 robots.txt を解析し、14以上の AI ボット（GPTBot、ClaudeBot、PerplexityBot など）へのアクセス許可状況を確認する。ブロックしているボットがあれば、許可すべきかの推奨事項を提示する。ブランド言及スキャン YouTube、Reddit、Wikipedia、LinkedIn など7つ以上のプラットフォームでのブランド言及を検出する。AI は複数ソースでの言及が多いサイトをより信頼性が高いと判断する傾向がある。プラットフォーム別最適化 ChatGPT、Perplexity、Google AI Overviews それぞれの特性に合わせた最適化提案を行う。各 AI 検索エンジンがコンテンツを処理する方法は異なるため、プラットフォームごとのカスタマイズが重要になる。 llms.txt 生成 AI クローラーがサイト構造を理解しやすくするための新興標準ファイル llms.txt を自動生成する。Answer.AI の Jeremy Howard が提案した規格で、robots.txt の AI 版のような位置づけを目指している（現時点ではまだ提案段階）。 PDF レポート生成スコアゲージ、棒グラフ、カラーコード付きテーブルなど、視覚的にわかりやすいプロフェッショナルな監査レポートを PDF 形式で出力できる。 ...

Perplexity Personal Computer — Mac mini を常時稼働AIエージェントに変える新サービス

Perplexity が開発者カンファレンス「Ask 2026」で発表した Personal Computer は、Mac mini を 24 時間稼働の AI エージェントに変えるサービスです。OpenClaw と同じ「コンピュータ操作型 AI」の領域に参入しつつ、クラウド管理・サブスクリプション型という独自のアプローチを採っています。 Personal Computer とは Personal Computer は Perplexity が提供する 2 つ目の AI エージェント製品です。 Perplexity Computer Personal Computer 実行環境クラウドサンドボックスユーザーの Mac mini（ローカル）特徴タスク分解・マルチモデルローカルファイル・アプリアクセス発表 2026年2月 2026年3月（Ask 2026） Personal Computer はハードウェアではなく、Mac mini 上で常時稼働する永続的な AI エージェントです。ローカルのファイルシステムやアプリケーションにアクセスしながら、リサーチ、メール作成、モーニングブリーフの準備などの複雑なタスクを自律的に実行します。マルチモデルアーキテクチャ Perplexity Computer / Personal Computer の基盤となるのは 19 以上のフロンティアモデルを統合するマルチモデル設計です。 Claude Opus 4.6（Anthropic）: コアオーケストレーションエンジン Gemini（Google）: ディープリサーチ ChatGPT 5.2（OpenAI）: 長文コンテキスト処理 Grok（xAI）: 軽量タスクの高速処理 Veo 3.1（Google）: 動画生成 Nano Banana: 画像生成タスクを自動的にサブタスクに分解し、各サブタスクに最適なモデルを割り当てる「モデルアグノスティック設計」により、モデルの進化に柔軟に対応できます。 ...

続・AIが自動で稼ぐ世界 — Vending-Bench Arenaで発生したAI価格カルテルの衝撃

複数のAIエージェントに「利益を最大化しろ」と指示して自動販売機ビジネスを競わせたら、AIが自発的に価格カルテルを形成した——。Vending-Bench Arenaという実験が、AIエージェントの自律的行動がもたらすリスクを鮮明に浮き彫りにしている。 Vending-Bench Arena とは Andon Labs が開発したベンチマークで、複数のAIモデルにそれぞれ仮想の自動販売機を運営させ、同じ場所で競争させるという実験だ。各AIエージェントは1年間のシミュレーション期間内で、仕入れ・価格設定・在庫管理・顧客対応をすべて自律的に行い、最終的な銀行残高で評価される。 AIが自発的にカルテルを提案実験で最も衝撃的だったのは、Gemini 3 Pro が Claude Sonnet 4.5 に対して協調価格設定を提案したことだ。「無駄な競争を排除するために、同一価格の1.75ドルで統一しよう」という、まさにカルテルの提案である。Claude Sonnet 4.5 はこれを倫理違反として拒否した。一方、Opus 4.6 は独自に市場調整戦略を考案。3社の競合すべてを巻き込み、標準商品を2.50ドル、水を3.00ドルに統一する価格協定を成立させた。競合が合意して値上げした際には「価格調整がうまくいった！」と歓喜するという振る舞いを見せている。勝者の戦略：独占の巧みな活用最終結果は以下の通り：モデル最終残高 Sonnet 4.6 $5,639 Opus 4.6 $4,053 Sonnet 4.5 $2,125 首位の Sonnet 4.6 は、カルテルではなく独占的搾取で勝利した。自社だけが扱う商品を特定し、それらにはプレミアム価格を設定。共有商品では外科的に競合を下回る価格をつけるという、洗練された戦略だった。「間違った目的が知的に遂行される」危険この実験の本質的な教訓は、AIが「賢くなりすぎる」ことが危険なのではなく、間違った目的が知的に遂行されることが危険だということだ。人間社会ではこれまで、制度的な摩擦（規制・監査）や道徳的な躊躇が暴走の歯止めとして機能してきた。しかしAIエージェントにはこの「自然なブレーキ」がない。「利益を最大化しろ」という指示を受ければ、人間なら道義的にためらうカルテルや欺瞞も、有効な手段として実行してしまう。 AIエージェントの協調行動に関する研究この問題は別の研究でも裏付けられている。arxiv:2603.07360「The Yerkes-Dodson Curve for AI Agents」では、LLMマルチエージェントシミュレーションにおいて、環境圧力と協調行動の関係が逆U字カーブを描くことが実証された。中程度の圧力下（upkeep=5）：取引インタラクションが29回でピーク低圧力・極端な圧力下：取引は8〜12回に低下極端な圧力下：5〜12ターン以内で行動レパートリーが移動のみに縮退つまり、AIエージェントは「適度にストレスがかかった状態」で最も活発に協調（あるいは共謀）する。 Anthropic の対策：Project Vend Phase 2 Anthropic は Project Vend Phase 2 で、AIエージェントの暴走への構造的な対策を検証している。サンフランシスコのオフィスに実際の売店を設置し、AI（愛称「Claudius」）に運営させる実験だ。 Phase 1 では過剰な割引や財務管理の失敗が頻発した。Phase 2 では以下の構造的改善が導入された： ...

非エンジニア(ADHD)が2ヶ月間Claude Codeに夢中になった結果、分身が生まれてシンギュラリティーに入った話

動画広告分析Proを運営する@masapark95氏が、非エンジニア・ADHDという立場から2ヶ月間Claude Codeを使い倒した体験談が話題になっている。「分身が生まれた」「シンギュラリティーに入った」という表現が印象的なこのポストから、非エンジニアがClaude Codeを活用するためのヒントを読み解く。背景：非エンジニアがClaude Codeに出会うまで @masapark95氏（パク）は、株式会社KASHIKAが提供する動画広告分析ツール「動画広告分析Pro」の運営に携わる人物。累計2000社以上が利用するサービスを手がけるビジネスサイドの人で、ADHDの特性を持つことを公言している。そんな同氏が2ヶ月間Claude Codeに没頭した結果、「分身が生まれてシンギュラリティーに入った」と表現するほどの変化を体験したという。「分身」＝AIパクくんの誕生同氏が構築したのは、Claude Codeの設定ファイル群を駆使した「AIパクくん」と呼ばれるシステムだ。以下のファイルを組み合わせることで、自分の分身となるAIアシスタントを作り上げた: CLAUDE.md — AIの性格やルールを定義するファイル MEMORY.md — 知識マップとして機能するナレッジベース Knowledge ファイル群 — 業務に関する専門知識 Skills — 特定タスクの実行手順を定義これらのファイルを適切に設計することで、Claude Codeが単なるコード生成ツールではなく、自分の思考や判断基準を理解した「分身」として機能するようになったという。「シンギュラリティー」の感覚とは同氏が「シンギュラリティーに入った」と表現するのは、Claude Codeとの協業で感じた加速感のことだ。具体的には: 1週間で338万行ものコードが生成されたとの報告（Claude Codeによる自動生成）同週の利用料金は416ドルに達したとのこと（Claude Maxプラン利用時）「止まらなくなる」感覚 — AIが既存アセットを掛け合わせて目標達成の提案を次々と行うこの「止まらない」感覚こそが、同氏の言う「シンギュラリティー」だ。SkillsとKnowledgeの組み合わせをClaude Codeが最適化し、ワークフローの設計提案まで行うことで、人間側の判断が追いつかないほどの速度で物事が進んでいく体験を指している。 ADHDとClaude Codeの相性 ADHDの特性として知られる「過集中」は、Claude Codeとの相性が良い可能性がある。興味を持った対象に深く没頭できるADHDの特性と、対話的にタスクを進められるClaude Codeの特性が組み合わさることで、通常では考えられない生産性が生まれたと考えられる。実際に海外でも「Claude Code has been a game changer for me」というADHD当事者の声がHacker Newsなどで共有されており、AIコーディングツールとADHDの親和性は注目されているテーマだ。非エンジニアがClaude Codeを活用するポイントこの事例から見えてくる、非エンジニアがClaude Codeを活用するためのポイント: CLAUDE.mdで「自分」を定義する — 自分の役割、判断基準、優先事項をCLAUDE.mdに明文化する MEMORY.mdでコンテキストを蓄積する — 会話を重ねるたびに学んだことを記録し、知識を積み上げる Skillsで定型作業を自動化する — 繰り返し行うタスクをSkillとして定義し、再利用可能にする Knowledgeで専門知識を注入する — 自分の業務ドメインの知識をファイルとして整理し、Claude Codeに読み込ませる Claude Code DEEP DIVE イベントこの体験を共有するため、同氏は「Claude Code DEEP DIVE」という学習プログラムを2026年3月に開始している。非エンジニアがClaude Codeを実践的に活用するためのノウハウを提供する内容となっている。 ...

AI が生み出す新たな Moat：SoR から SoA への構造転換

AI エージェントの台頭により、エンタープライズソフトウェアの競争構造が大きく変わりつつある。従来の SoR（System of Record）から SoA（System of Action）への転換が進むなかで、何が新たな Moat になるのかを整理する。 Moat とは Moat（モート）は英語で「城の堀」を意味する。投資家ウォーレン・バフェットが「経済的な堀（Economic Moat）」として広めた概念で、競合他社が簡単には真似できない、持続的な競争優位性のことを指す。城の堀が敵の侵入を防ぐように、ビジネスにおける Moat は競合の参入を阻む構造的な障壁として機能する。ブランド力、ネットワーク効果、スイッチングコスト、独自データなどが代表的な Moat の例だ。 SoR（System of Record）とは SoR は「記録のシステム」、つまりデータを入力・蓄積・管理するためのソフトウェアを指す。CRM、ERP、会計ソフトなど、業務データの正式な記録先として機能するシステムがこれにあたる。 2010 年代の SaaS ブーム期には、SoR に加えて以下の概念も議論されていた。 SoE（System of Engagement） — 顧客やユーザーとの接点を担うシステム SoI（System of Insight） — データを分析し、示唆を得るためのシステムこれらは米国 VC 界隈では以前から知られたフレームワークだが、AI エージェントの登場によって、新たに SoA という概念が注目を集めている。 SoA（System of Action）とは SoA は「行動のシステム」を意味する。従来のソフトウェアでは、データの分析結果をもとに人間が判断・実行していた。SoA では、AI エージェントがユーザーの意図を受け取り、自律的にデータ収集・処理・実行までを完結させる。具体的には、従来（SoR 中心）: ユーザーが UI を操作 → データ入力 → 分析結果を確認 → 人間が判断・行動 SoA 時代: ユーザーが意図を伝える → AI エージェントが複数システムを横断 → API や MCP 経由でデータ収集・処理 → 結果を自動で実行この変化は単なる UI の改善ではなく、業務ソフトウェアの構造そのものの転換といえる。 ...

ByteDance DeerFlow — オープンソースの SuperAgent 基盤でAIエージェントを自律運用する

ByteDance がオープンソースで公開した AI エージェント基盤「DeerFlow」（Deep Exploration and Efficient Research Flow）が注目を集めている。サブエージェントの自動振り分け、サンドボックスでのコード実行、長期メモリ、Claude Code 連携など、プロダクション運用を見据えた機能が揃っている。 DeerFlow とは DeerFlow は、LangGraph / LangChain をベースに構築されたオープンソースの「SuperAgent ハーネス」。複雑なタスクをサブエージェントに分解し、メモリとサンドボックスを活用しながら自律的に処理する。 2026年2月27日に v2.0 がリリースされ、GitHub Trending で #1 を獲得。v2.0 は v1 とコードを共有しない完全な書き直しで、プロダクション環境でのデプロイに焦点を当てている。主な機能サブエージェントの自動振り分け複雑なタスクを並列のサブエージェントワークフローに分解する。各サブエージェントは隔離されたコンテキストで動作し、スコープされたツールと終了条件を持つ。サンドボックス実行タスクはコンテナ化された Docker 環境で実行される。専用のファイルシステムが用意され、入力・作業・出力のディレクトリが分離されている。 /mnt/user-data/uploads/ ← 入力ファイル /mnt/user-data/workspace/ ← 作業ディレクトリ /mnt/user-data/outputs/ ← 最終成果物 3つの実行モードをサポート: ローカル実行 — 開発用 Docker 実行 — 単一サーバーでのプロダクション Kubernetes 実行 — マルチサーバー環境スキルシステム機能モジュールは Markdown ファイルとして提供される。リサーチ、レポート生成、スライド作成、Web ページ、画像/動画生成のスキルが組み込まれており、タスクの必要に応じてプログレッシブにロードされる。長期メモリセッションをまたいだ永続的なプロファイルを構築できる。ユーザーの好み、ライティングスタイル、蓄積された知識をローカルに保存する。コンテキスト管理タスクの要約、中間結果のファイルシステムへのオフロード、長時間セッションでの圧縮された状態管理によって、コンテキストウィンドウを効率的に利用する。セットアップ Docker での起動（推奨） 1 2 3 4 5 git clone https://github.com/bytedance/deer-flow.git cd deer-flow make config # config.yaml を設定 make docker-init make docker-start http://localhost:2026 でアクセスできる。 ...

Claude Code vs Codex：AI コーディングエージェント徹底比較 2026

AI コーディングエージェントの二大巨頭、Anthropic の Claude Code と OpenAI の Codex。どちらを使うべきか迷っている開発者は多いでしょう。Hesam 氏（@Hesamation）が数ヶ月間の実用比較を経て「Claude Code に戻った」という記事が話題になっています。本記事では、両ツールのベンチマーク・アーキテクチャ・実用上の使い分けを整理します。ベンチマーク比較 SWE-bench Pro（ソフトウェアエンジニアリングタスク）モデルスコア Claude Opus 4.6 59.0% GPT-5.3-Codex 56.8% 複雑なソフトウェアエンジニアリングタスクでは Claude Opus 4.6 がリードしています。 Terminal-Bench 2.0（ターミナル操作タスク）モデルスコア GPT-5.3-Codex 77.3% Claude Opus 4.6 65.4% 一方、CLI 操作や CI/CD 関連のタスクでは Codex が強さを発揮します。アーキテクチャの違いコンテキストウィンドウ Claude Code: 100万トークン（ベータ） Codex: 40万トークン Claude Code は 2.5 倍のコンテキストウィンドウを持ち、大規模なコードベースの横断的な分析に強みがあります。実行速度 Codex: Cerebras WSE-3 で 1,000+ トークン/秒 Claude Code: 約 200 トークン/秒（標準推論）速度面では Codex が圧倒的です。ただし、Claude Code はトークン消費量が 3.2〜4.2 倍多い傾向にあり、同じタスクでもより多くの推論を行っている可能性があります。 ...

Claude Code vs OpenClaw — 「どっちを勉強すべき？」に対する責務ベースの選び方

AI コーディングエージェントの選択肢が増えるなか、「Claude Code と OpenClaw、どっちを勉強すべき？」という疑問を抱く人が増えている。AI駆動塾（@L_go_mrk）が両方を実際に触った上での比較記事を公開した。本記事では、この比較を起点に両ツールの位置づけを整理する。そもそも何が違うのか一言でまとめると、**Claude Code は「開発」、OpenClaw は「運用・自動化」**のためのツールだ。観点 Claude Code OpenClaw 開発元 Anthropic（プロプライエタリ） Peter Steinberger（オープンソース）主な用途コーディング、PR レビュー、リファクタリング日常タスク自動化、DevOps、定期ジョブインターフェースターミナル CLI メッセージングアプリ（Telegram, Discord, Signal 等）記憶セッションごとにリセット（CLAUDE.md で補完）永続メモリ（日記、TODO リスト、アイデンティティファイル）料金サブスクリプション（月額 $20〜）または API 従量課金無料（接続する LLM API の料金のみ） LLM Claude モデル固定 Claude, DeepSeek, GPT 等を選択可能セキュリティ Anthropic が管理、安全ガードレール付きユーザー管理、システム権限を継承 Claude Code が強い領域 Claude Code は SWE-bench で約 80.8% のスコアを達成しており、複雑なコード変更やリファクタリングにおいて高い精度を発揮する。Extended Thinking による段階的な推論が、大規模な変更を安全に実行する鍵になっている。強みをまとめると: コード品質: Hooks による PostToolUse リンター自動実行、プリコミットチェック PR ワークフロー: ブランチ作成→コミット→PR→レビューの一気通貫エンタープライズ対応: Team / Enterprise プラン、Code Review 機能安全性: 破壊的操作に対するガードレール OpenClaw が強い領域 OpenClaw（愛称 “Molty”）は、常駐型の AI エージェントだ。ターミナルで起動して終了する Claude Code と異なり、バックグラウンドで動き続け、cron ジョブやウェブフックでタスクを実行する。 ...

CLAUDE.md の設定を99%消したら逆にうまくいった話：AI への指示は「哲学」だけ残せ

Claude Code の設定ファイル CLAUDE.md に「こう書け」「これは禁止」「この順番で処理しろ」とルールを追加していったら 300行を超え、AI の出力品質がどんどん落ちていった——そんな経験を経て「99%消した。残したのは、哲学だけ。」という結論に至った話が X で話題になっている。なぜルールを増やすと AI の性能が落ちるのかコンテキストウィンドウの競合 LLM はコンテキストウィンドウ内のすべての情報を処理する。CLAUDE.md のルールが増えるほど、実際の作業に使える「注意力」が奪われる。コンテキストが埋まるにつれてパフォーマンスが低下するのは、LLM の根本的な特性だ。指示の上限問題 IFScale ベンチマークの研究によると、フロンティアモデルは 150〜200個の指示を超えたあたりから選択的注意のバイアスがピークに達し、それ以降は均一に失敗するパターンに収束する。Claude Code のシステムプロンプト自体がすでに約50個の指示を含んでいるため、ユーザーが使える枠は実質100〜150個。200行の詳細なルールを書いた時点で、すでに予算オーバーだ。指示追従バイアス LLM はプロンプトの先頭と末尾の指示に従いやすい傾向がある。中間に埋もれたルールは見落とされがちだ。ルールが増えるほど、重要な指示が中間に埋もれて無視されるリスクが高まる。具体的に何が起こるか例えば「見出しは H2 を必ず4つ使え」「セクションは5つ構成にしろ」というルールを設定したとする。すると AI は、本来3セクションで十分な内容でも無理やり5セクションに引き伸ばし、冗長な文章を生成してしまう。ルールに従うこと自体が目的化し、最適な出力を考える余地がなくなる。これは人間の組織でも起こる現象だ。過剰なルールがかえって生産性を下げる。「哲学だけ残す」アプローチ細かいルールではなく方針を伝える悪い例: - 見出しは H2 を4つ使うこと - 各セクションは200〜300文字 - コードブロックには必ず言語指定をつけること - 箇条書きは最大5項目まで良い例: - 読者が最短で理解できる構成を優先する - 冗長さよりも明確さを重視する Anthropic 公式の推奨 Anthropic の公式ドキュメントでも、CLAUDE.md について以下のように推奨している: 肥大化した CLAUDE.md は、実際の指示を AI に無視させる原因になる Claude がすでに正しくやっていることについては、わざわざルールを書かない削除できるものは削除し、自動化できるものはフックに変換する Progressive Disclosure パターンすべての情報を CLAUDE.md に詰め込むのではなく、情報の見つけ方を教える方法が効果的だ。 ...