RAG | hdknr blog

90%のAI Agentの記憶は偽物？Markdownダンプが崩壊する理由とMem0・GraphRAGによる設計

「現在の90%のAI Agentの記憶は偽物だ」——AI研究者 @AYi_AInotes がXでこう発言し、大きな反響を呼んでいる。多くの開発者が同じ罠にはまっている。「会話履歴や決定ログをMarkdownファイルに溜め込めば長期記憶になる」という誤解だ。この記事では、なぜMarkdownダンプが「記憶」ではないのか、4つの根本的欠陥と2026年時点で実用可能なグラフ×埋め込みベースの代替設計を解説する。 Markdownファイルへの履歴ダンプが崩壊するまで @AYi_AInotes 自身の失敗談がわかりやすい。失敗は次の順序で進んだ。全ての会話履歴・決定ログをMarkdownファイルに蓄積「これで長期記憶が実現できた」と信じる 2週間で崩壊崩壊の具体的な症状：同一事実に3つの矛盾バージョンが存在する — 上書きも検証もなく書き足し続けた結果先月の好みと昨日の重みが同等に扱われる — 時系列の概念がない毎回全コンテキストを詰め込む — 遅延増大、コンテキスト汚染（クロストーク）が頻発 Markdownベース記憶の4つの根本的欠陥 1. 重複排除がない（No Deduplication）同じ情報が何度も書き込まれ、どれが最新・正確かわからなくなる。矛盾する記述が増え続け、Agentが混乱する。 2. セマンティック検索ができない（No Semantic Retrieval）キーワードマッチしか使えず、関連情報を文脈で引き出せない。「先月の判断」と「今月の判断」の関係性が見えない。 3. 時系列優先度がない（No Temporal Weighting）古い情報と新しい情報が同等に扱われる。ユーザーの好みが変化しても、Agentは古い情報に引きずられる。 4. エンティティ間の関係を持てない（No Relationship Modeling）「AとBは関係がある」「Cの前提はDである」という構造を表現できない。フラットなテキストでは知識の構造化が不可能。 PromptをRAMとして使うことの問題 Markdownダンプを人間の記憶に例えると：脳に情報を定着させるのではなく、ノートに書いて毎回全文を読み返すようなものノートが増えるほど読み返す時間が増え、矛盾も増えるこれは記憶ではなく、外部ストレージへの都度参照だ本物の記憶は：関連情報を索引化して素早く引き出せる同じ情報を重複して持たない（圧縮・統合）時間の経過とともに重要度が変化する事実間の関係性を持つ Markdownダンプはこれを一切満たさない。PromptをRAMとして使っているだけだ。本物の記憶 = グラフ + ベクトル埋め込み + トラバーサル本物の記憶の設計原則は3つのコンポーネントで構成される：グラフ（Graph）知識をノードとエッジで構造化する。エンティティ（人、概念、出来事）をノードとして、その関係をエッジとして保存する。「AはBを好む」「CはDに依存する」という関係が明示的に管理できる。埋め込み（Embeddings）各ノードをベクトルに変換することで、意味的に近い情報を検索できる。「先週の決定」と「今週の状況」の意味的類似性を計算し、関連する記憶だけを取り出せる。トラバーサル（Traversal）グラフを辿ることで、直接リンクされていない関連情報も発見できる。「ユーザーの好みA → 関連する行動B → 影響を受けた決定C」という連鎖をたどれる。 ...

Exa

概要 Exa は LLM/AI エージェント向けに最適化されたセマンティック検索 API。Google などのキーワード検索エンジンと異なり、自然言語クエリと意図でドキュメントをマッチングするため、AI エージェントのコンテキスト取得に向く。公式: https://exa.ai/ 主要機能 Neural Search: 埋め込みベースのセマンティック検索 Keyword Search: 従来型のキーワード一致検索もサポート Find Similar: 与えた URL/ドキュメントと意味的に近いページを取得 Contents API: 検索結果のフルテキスト・要約・ハイライトを返す Live Crawl: 検索時にリアルタイムでクロールするモード Claude / Claude Code での利用 Exa for Claude（MCP プラグイン）として提供されており、Claude Code から MCP 経由で呼び出せる。導入後は通常の Web Search ツールに加えて Exa の高度なセマンティック検索を利用できる。 Model Context Protocol サーバとして接続するため、API キー設定とサーバ起動の標準的な MCP セットアップで動く。想定ユースケース RAG のクエリリライタ: 「自然言語の質問」→ 関連ドキュメント取得（RAG）エージェントの調査タスク: 競合調査、技術調査、論文検索コーディング支援: GitHub やドキュメントサイトを横断したコード例・ライブラリ調査関連ページ MCP（Model Context Protocol） RAG Claude Code ソース記事 Exa for Claude MCP プラグイン — 2026-04-25

Open Notebook

概要 Open Notebook は、Google NotebookLM のような「ノートにソース文書を集約 → AI に質問」型のリサーチツールを OSS で実装したプロジェクト。プライベートな文書や機密データを外部 SaaS にアップロードしたくないユースケースで、ローカル LLM や任意の API バックエンドと組み合わせて使える点が特徴。 NotebookLM との関係 NotebookLM は Google が提供するソース駆動の AI ノートで、PDF・Web・YouTube などをノートに追加すると LLM が文脈を理解した回答を返す。Open Notebook はそのオープンソース版として、機能を再現しつつバックエンド LLM を差し替えられる柔軟性を持つ。想定ユースケース機密文書の要約・QA: 社外秘・クライアント文書を外部にアップロードせず分析研究ノート: 論文・ノート・実験ログを統合してエージェント風に質問個人の知識ベース: Obsidian や Markdown ファイル群と連携した「自分専用 NotebookLM」関連ページ RAG — 同じ「文書集約 + 質問応答」のパターンの背景概念 Obsidian — 個人ノートとの組み合わせ候補 Ollama — ローカル LLM バックエンドソース記事 Open Notebook — NotebookLM の OSS 代替 — 2026-04-22

RAGなしでも高精度に動くAgent Harnessの秘密 — コンテキストサイズと「100ファイル」の目安

Claude CodeやCodexのようなAgent Harnessは、RAG（Retrieval-Augmented Generation）をほとんど使わないにもかかわらず、高精度なコード生成や理解を実現している。一方、RAGに依存しすぎたAgentはハルシネーションを起こしやすいという逆説がある。なぜこのような違いが生まれるのか？Software Engineer兼Database ResearcherのTaro L. Saito（@taroleo）氏のポストが、その本質を簡潔に説明している。コンテキストウィンドウの拡大がRAGの必要性を変えた現行のAIモデルのコンテキストサイズは20k〜1Mトークンに達している。これは、目安としておよそ100ファイル以下のコードベースであれば、RAGを介さずそのままコンテキストに収めて処理できることを意味する。モデルコンテキストサイズ GPT-4o 128k tokens Claude Sonnet 4.x 200k tokens Gemini 1.5 Pro 1M tokens Claude CodeやCodexなどのAgent Harnessは、この大きなコンテキストウィンドウを活かして、必要なファイルを直接読み込みながらタスクを実行する。ベクトル検索による「関連しそうな断片」の取得ではなく、「実際に必要なコード全体」を参照できる。 RAGの弱点：断片的な情報がハルシネーションを生む RAGは「大量の文書から関連部分を検索して取得する」ことで、LLMに外部知識を与える仕組みだ。ドキュメント検索や広範な知識ベースへのアクセスには有効だが、コードベースのような相互依存が強い構造的情報に対しては課題がある。 RAG特有の問題点：断片的なコンテキスト: ベクトル類似度で取得したチャンクは、実際の依存関係を無視している場合がある欠落した情報: 関連するが類似度スコアが低いコードが検索から漏れる矛盾した断片: 異なるバージョンや関連する別モジュールの断片が混在するこうした不完全な情報でコードを生成させると、存在しない関数を呼び出したり、実際のインターフェースと合わない実装を生成したりするハルシネーションが発生しやすい。 Agent Harnessが「100ファイル以下」で高精度な理由 Claude CodeのようなAgent Harnessが高精度に動く理由は、コンテキストウィンドウの有効活用にある。プロジェクト構造の把握（ls、find など）関連ファイルの直接読み込み（cat、read）完全なコンテキストを持った上でコード生成・編集 RAGのように「類似チャンク」を取得するのではなく、ツールを使って必要なファイルを選択的に読み込むというアプローチだ。ファイル数が100程度であれば、現行のコンテキストサイズに収まるため、コードベース全体を「見た上で」タスクを実行できる。これにより：実際に存在する関数・型・インターフェースのみを参照するインポート関係や依存構造を正確に把握するプロジェクト固有の命名規則や設計パターンに従うベクトル検索が有効なケースと直接読み込みが有効なケース NTT DATAのエンジニアリングブログ「ベクトル検索は不要なのか？」では、生成AI時代にRAGやベクトル検索をどう捉えるべきかを整理している。Taro氏のポストはこの記事を引用しており、「100ファイル以下という目安」はコンテキストサイズとトークン換算から導き出せる経験則だ。ベクトル検索が有効なケース： 100ファイルを超える大規模コードベース（モノレポ、大企業の内部リポジトリ）広範なドキュメント検索（社内ナレッジベース、技術文書）リアルタイム情報の取得（外部ドキュメント、最新の仕様）コンテキストに収まる場合に直接読み込みが有効なケース：中小規模のプロジェクト（スタートアップのコードベース、個人プロジェクト）特定モジュールへの集中作業正確な依存関係の把握が必要な場合 RAG自体を強化する方向: GraphRAG という選択肢「RAGを捨てて直接読み込み」ではなく、「RAGの断片性を補う」方向の研究もある。代表的なのがMicrosoft Researchが2024年に発表した GraphRAG だ。 GraphRAGの基本アイデアは次の通り： ...

Onyx（旧 Danswer）

概要旧称 Danswer から改名されたオープンソースの企業向け AI アシスタント＆検索プラットフォーム。Slack・GitHub・Confluence・Google Drive など 50 以上のコネクタで社内ナレッジを統合し、自然言語で検索・質問できる。GitHub スター数 22,000 超。ライセンス: Community Edition (CE) は MIT ライセンスで無料 GitHub: onyx-dot-app/onyx 主な機能機能内容ハイブリッド検索ベクトル検索 + キーワード検索の組み合わせ Agentic RAG エージェントが自律的に多段階検索 Deep Research 複数ステップのリサーチでレポート生成カスタムエージェント独自の指示・知識・アクションを持つエージェント 50 以上のコネクタ Slack・GitHub・Notion・Jira・Linear など MCP 対応 MCP 経由のカスタムコネクタも可セルフホスト手順 Docker と Docker Compose があれば数分でデプロイ可能: 1 2 3 curl -fsSL https://raw.githubusercontent.com/onyx-dot-app/onyx/main/deployment/docker_compose/install.sh > install.sh chmod +x install.sh ./install.sh 対応 LLM クラウド LLM（OpenAI・Anthropic・Gemini）とローカル LLM（Ollama・vLLM・LiteLLM）の両方に対応。完全オンプレミス構成で外部 API なしの運用も可能。 ...

RAG (Retrieval-Augmented Generation)

概要最新のドキュメントやナレッジベースをベクトル DB に保存し、クエリ時に関連文書を検索して LLM に供与する手法。LLM の知識カットオフを補い、ハルシネーション低減に効果的。仕組みドキュメントをチャンクに分割 Embeddings でベクトル化してベクトル DB に格納クエリ時に類似ベクトルを検索検索結果をコンテキストとして LLM に渡す RAG の限界と LLM Wiki Karpathy は RAG を「毎日同じ本を初めて読む人に質問を投げるようなもの」と評し、知識を積み上げる LLM Wiki パターンを提案した。RAG は都度検索、LLM Wiki は事前コンパイル。アダプティブ検索 RAG（新手法）従来の RAG は検索戦略が固定されているため、クエリに合わない場合は精度が著しく低下する。モデル自身が検索方法を選択・組み合わせるアダプティブ RAG は、この問題に対応する新手法。 3つの検索戦略検索戦略向いているケースキーワード検索固有名詞・型番・コマンドなど特定語句の検索意味検索（セマンティック）概念的な質問、言い換えが多い文書チャンク全文読み文脈・前後関係が重要な長文モデルの推論能力が高いほど検索戦略の判断精度が向上するため、モデル進化と共に RAG 全体の性能が自然にスケールする構造となっている。読み込むテキスト量は従来と同等以下でも回答精度は向上する。関連ページ LLM Wiki パターン — RAG の限界を超える知識積み上げ型アプローチ AI エージェント — RAG を内部で利用するシステム MemPalace — ベクトル検索による永続メモリシステムソース記事 getAI RAG — 2024-04 Karpathy の LLM Wiki — 2026-04 AIが自分で調べ方を選ぶRAG — モデル推論能力でスケールする新手法 — 2026-03-17

Karpathy の LLM Wiki — AIエージェントが育てる個人ナレッジベースという新パターン

Andrej Karpathy が GitHub に「ファイル1つ」をアップロードし、10時間で星1,700超・フォーク300超を記録した。コードでもアプリでもない、マークダウン文書1枚だ。名前は llm-wiki.md。この文書が提案するのは、LLM エージェントに個人ナレッジベース（Wiki）を継続的に構築・保守させるというパターンだ。 RAG の限界 — 毎回ゼロから読み直す問題現在、多くの人が AI に対してやっていることは「ファイルを渡して要約させる」「質問のたびにドキュメントを検索させる」の繰り返しだ。これは RAG（Retrieval-Augmented Generation: 検索で補強した文章生成）と呼ばれる手法で、技術的には問題ない。しかし Karpathy はこの方式を「毎日同じ本を初めて読む人に質問を投げるようなもの」と表現する。AI は昨日読んだ内容を今日忘れる。蓄積がない。5つの文書を横断して初めてわかる微妙な問いには、毎回断片をかき集めて一からつなぎ合わせる必要がある。 LLM Wiki のアイデア — 知識を「積み上げる」 Karpathy が提案するのは、AI にドキュメントを読ませるたびにWiki を更新させるというアプローチだ。新しい資料を投入するたびに、AI は：要約ページを作成する既存のエンティティページ・概念ページを更新する相互参照リンクを張る矛盾があればフラグを立てるインデックスとログを更新するつまり、知識は一度コンパイルされて保持され、クエリのたびに再導出されるのではない。Wiki は永続的で複利的に成長するアーティファクトになる。三層構造 LLM Wiki のアーキテクチャはシンプルな三層構造だ。 1. Raw Sources（原本資料）論文、記事、メモなど、ユーザーがキュレーションした元資料。AI はこれを読むだけで、絶対に変更しない。これが信頼できる唯一の情報源（source of truth）となる。 2. Wiki（知識ベース） AI が生成・保守するマークダウンファイル群。要約ページ、エンティティページ、概念ページ、比較ページ、概要、統合的な考察など。ユーザーが読み、AI が書く。 3. Schema（設定） AI に「この Wiki をどう管理するか」を伝える設定ファイル。Karpathy は AI エージェントの設定ファイル（CLAUDE.md や AGENTS.md）に置くことを推奨している。Wiki の構造、命名規則、取り込みワークフロー、回答フォーマットなどを定義する。三つの基本操作操作内容 Ingest（取り込み）新しい資料を投入し、AI に読ませて Wiki を更新させる。1つの資料で10〜15ページが更新されることもある Query（質問） Wiki に対して質問する。AI はインデックスから関連ページを探し、統合的に回答する。良い回答は新しい Wiki ページとして保存できる Lint（保守）定期的に Wiki の健全性をチェックする。矛盾、古い記述、孤立ページ、欠落リンクなどを検出・修正する「アイデアファイル」という新しい共有形態この llm-wiki.md が爆発的に広まった理由について、Karpathy 自身がこう述べている： ...

LLM Wiki パターン

概要 Andrej Karpathy が提案した、LLM エージェントに個人ナレッジベース（Wiki）を継続的に構築・保守させるパターン。RAG が「毎回ゼロから読み直す」のに対し、LLM Wiki は知識を積み上げて複利的に成長させる。三層構造層役割誰が扱うか Raw Sources 論文・記事・メモなどの原本資料人間がキュレーション、AI は読むだけ Wiki AI が生成・保守するマークダウン群 AI が書き、人間が読む Schema AI への管理指示（構造・命名規則・ワークフロー）人間が定義三つの基本操作 Ingest（取り込み）: 新しい資料を投入し、AI に Wiki を更新させる Query（質問）: Wiki に対して質問し、統合的な回答を得る Lint（保守）: 矛盾・古い記述・孤立ページなどを定期チェックなぜ機能するか人間が Wiki を放棄する主因は保守コスト。LLM は相互参照の更新、要約の最新化、一貫性維持を飽きずに続けられる。保守コストがほぼゼロになることで Wiki が持続する。関連ページコンテキスト圧縮 — LLM の文脈管理における関連技術 Claude Code — LLM Wiki の実行環境として利用可能ソース記事 Karpathy の LLM Wiki — AIエージェントが育てる個人ナレッジベースという新パターン — 2026-04-05

Onyx（旧 Danswer）完全ガイド — 無料で使えるオープンソース AI プラットフォーム

Onyx（旧 Danswer）は、社内のドキュメント・アプリ・人材をまとめて繋ぎ、どんな LLM とも連携できるオープンソースの AI プラットフォームです。Community Edition（CE）は MIT ライセンスで完全無料。セルフホストできるため、データを外部に出さずに AI チャットや RAG、エージェント機能を利用できます。 Onyx とは Onyx は企業向け AI アシスタント＆検索プラットフォームです。Slack、GitHub、Confluence、Google Drive など 50 以上のコネクタで社内ナレッジを統合し、自然言語で質問するだけで必要な情報を引き出せます。 GitHub リポジトリ（onyx-dot-app/onyx）のスター数は 22,000 超で、活発に開発が続いています。主な機能チャット＆RAG ハイブリッド検索: ベクトル検索とキーワード検索を組み合わせた高精度な情報検索 Agentic RAG: AI エージェントが検索クエリの生成・評価・再検索を自律的に繰り返し、複数ステップで情報を収集 Deep Research: 多段階のリサーチフローで詳細なレポートを生成エージェント＆ツールカスタムエージェント: 固有の指示・知識・アクションを持つ AI エージェントを構築可能 Web 検索: リアルタイムの Web 情報を取得コード実行: サンドボックス内でコードを実行し、データ分析やグラフ描画が可能画像生成: プロンプトに基づいた画像生成音声モード: テキスト読み上げ＆音声入力に対応コネクタ（50 以上） Slack、GitHub、Confluence、Notion、Google Drive、Jira、Linear など主要サービスと連携。MCP（Model Context Protocol）経由のカスタムコネクタにも対応しています。エディション比較項目 Community Edition (CE) Enterprise Edition (EE) ライセンス MIT（無料）商用ライセンスチャット・RAG・エージェント ✅ ✅ SSO（OIDC / SAML） — ✅ エアギャップ環境 — ✅ サポートコミュニティ専用サポート Cloud 版も提供されており、セルフホストなしで試用できます。ビジネスプランは 1 ユーザーあたり月額 $16〜。 ...

MiroFish その後: 3週間で GitHub Star 4.7万超へ — コミュニティの広がりと今後の展望

以前の記事で紹介した AI 予測エンジン「MiroFish」が、公開から約3週間で GitHub Star 4.7万超にまで急成長しています。本記事では、その後の動向とコミュニティの広がりを追います。 3週間での急成長 3月10日時点で約11,000だった Star 数は、3月末時点で 47,000以上に到達しました。約3週間で4倍以上の成長です。 GitHub Trending で世界1位を獲得した直後の注目度に加え、盛大グループ創業者・陳天橋氏からの3,000万元（約6億円）の即決投資が報じられたことで、AI エージェント分野への関心の高さを示すプロジェクトとして広く認知されました。コミュニティの広がり MiroFish のオープンソース公開後、コミュニティによる派生プロジェクトが活発に展開されています。オフライン版フォーク MiroFish-Offline は、Neo4j と Ollama を使ったローカル完結型のフォークです。クラウド API への依存を排除し、プライベートな環境でマルチエージェントシミュレーションを実行できます。企業内のデータを外部に出せないケースなどでの活用が想定されます。デモサイト公式デモサイトが公開されており、ブラウザ上で MiroFish の予測プロセスを体験できます。多言語対応フォーク英語版 README の整備や、コミュニティによる英語フォークも複数登場し、中国語圏以外への普及が進んでいます。群体知能アプローチへの注目 MiroFish が採用する群体知能（Swarm Intelligence）アプローチは、従来の AI 予測と異なる特徴を持っています。従来の予測モデルは統計的パターンや単一モデルの推論に依存しています。一方、MiroFish は数千のエージェントによる社会的シミュレーションを通じて予測を行います。エージェント同士が議論し、説得し、立場を変えるプロセスを経ることで、集団行動や社会的伝播といった創発的パターンを予測に反映できます。このアプローチは、特に世論形成や市場心理のような「人間の集団行動」が結果を左右する領域で有効性が期待されています。今後の注目点 MiroFish の急成長は印象的ですが、今後の展開にはいくつかの注目点があります。予測精度の検証: 実際のイベントに対する予測精度がどの程度か、体系的な評価はまだ少ないスケーラビリティ: OASIS エンジンは100万エージェント対応を謳うが、実運用での性能と品質のバランス LLM コスト: 数千エージェントの同時推論に必要な API コストの最適化ユースケースの深化: 汎用的な「万物を予測」から、特定領域での実用性の実証まとめ MiroFish は、公開からわずか3週間で GitHub Star 4.7万超という驚異的な成長を遂げました。オフライン版フォークやデモサイトの登場など、コミュニティの展開も活発です。群体知能によるマルチエージェント予測というコンセプトは多くの開発者の関心を集めていますが、実用面での検証はこれからです。今後の予測精度の実証やユースケースの深化に注目していきたいプロジェクトです。参考リンク MiroFish GitHub リポジトリ MiroFish-Offline (ローカル版フォーク) MiroFish: The AI Swarm Engine That Simulates the Future 前回の記事: MiroFish — 20歳の学生が10日間の Vibe Coding で作った AI 未来予測エンジン