RAG (Retrieval-Augmented Generation)

概要 最新のドキュメントやナレッジベースをベクトル DB に保存し、クエリ時に関連文書を検索して LLM に供与する手法。LLM の知識カットオフを補い、ハルシネーション低減に効果的。 仕組み ドキュメントをチャンクに分割 Embeddings でベクトル化してベクトル DB に格納 クエリ時に類似ベクトルを検索 検索結果をコンテキストとして LLM に渡す RAG の限界と LLM Wiki Karpathy は RAG を「毎日同じ本を初めて読む人に質問を投げるようなもの」と評し、知識を積み上げる LLM Wiki パターンを提案した。RAG は都度検索、LLM Wiki は事前コンパイル。 アダプティブ検索 RAG(新手法) 従来の RAG は検索戦略が固定されているため、クエリに合わない場合は精度が著しく低下する。モデル自身が検索方法を選択・組み合わせるアダプティブ RAG は、この問題に対応する新手法。 3つの検索戦略 検索戦略 向いているケース キーワード検索 固有名詞・型番・コマンドなど特定語句の検索 意味検索(セマンティック) 概念的な質問、言い換えが多い文書 チャンク全文読み 文脈・前後関係が重要な長文 モデルの推論能力が高いほど検索戦略の判断精度が向上するため、モデル進化と共に RAG 全体の性能が自然にスケールする構造となっている。読み込むテキスト量は従来と同等以下でも回答精度は向上する。 関連ページ LLM Wiki パターン — RAG の限界を超える知識積み上げ型アプローチ AI エージェント — RAG を内部で利用するシステム MemPalace — ベクトル検索による永続メモリシステム ソース記事 getAI RAG — 2024-04 Karpathy の LLM Wiki — 2026-04 AIが自分で調べ方を選ぶRAG — モデル推論能力でスケールする新手法 — 2026-03-17

2026年4月6日 · 1 分

AIエージェント記憶検索の限界とSuperLocalMemory V3が挑む3つの数学的解決策

30以上のAIエージェント記憶システムを調査した結果、Mem0・MemGPT・Letta・Zepを含むすべてのシステムがコサイン類似度を採用していることが明らかになった。さらに2020〜2026年のNeurIPS・ICML・ACLの主要論文を調べても、これを研究上の問題として指摘した論文は1本も存在しないという。 SuperLocalMemory V3(SLM-V3) はこの構造的問題に対し、フィッシャー情報量メトリクス・シーフコホモロジー・リーマン多様体上の確率微分方程式という3つの数学で挑むシステムだ。 なぜコサイン類似度では不十分なのか コサイン類似度の問題は記憶が増えると顕在化する。 「コサイン近傍」に入るベクトルの数は記憶の総数に比例して線形に増える。一方、「本当に関係ある記憶」はクエリの情報量に縛られた有限個のまま変わらない。記憶を積み重ねるほど、検索ランキングはノイズに溺れていく。 加えて、既存システムには2つの設計上の問題がある。 忘却が手動設定の半減期に依存している(固定パラメータ) 矛盾した記憶はそのまま放置される(検出機構がない) SLM-V3の3つの数学的アプローチ 1. フィッシャー情報量メトリクスによる検索の置き換え コサイン類似度は埋め込みの全次元を均等に扱う。しかし実際には、次元ごとに信頼性が大きく異なる。意味的区別を鮮明に捉える次元もあれば、ノイズしか拾わない次元もある。 論文の具体例が直感的だ。クエリから同じ距離に記憶AとBがあったとする。 記憶A:埋め込み空間で「似たものが周りにたくさんある」密集ゾーン 記憶B:「ここにしかない」希少ゾーン 情報として価値があるのはBのはずだが、コサイン類似度はAとBを同等に扱ってしまう。 SLM-V3は各次元を逆分散(信頼度の高さ)で重み付けするフィッシャー情報量メトリクスに置き換える。これはCencovの定理が示す「統計多様体上で唯一の数学的に自然な計量」だ。 2. シーフコホモロジーによる矛盾の代数的検出 エージェントが長期間動き続けると、矛盾する記憶が積み重なる。「このAPIはREST」と「このAPIはGraphQL」のような相反する情報が共存しても、既存システムはどちらかを黙って返すだけで矛盾に気づけない。 SLM-V3はシーフコホモロジー(代数トポロジーの道具)を使い、矛盾を代数的に検出する。第1コホモロジー群 H¹ が非自明であれば矛盾が存在する。AIエージェント記憶における初の矛盾検出の数学的保証だ。 3. ポアンカレ球面上の確率微分方程式による忘却管理 従来の固定半減期による忘却を廃止し、ポアンカレ球面上の確率微分方程式(リーマン・ランジュバン動力学) で記憶の重要度を管理する。 重要度の低い記憶はポアンカレ球の境界に向かってドリフトし、自然に忘却される。フォッカー・プランク方程式による収束保証付きであり、手動パラメータ調整が不要になる。 ベンチマーク結果(LoCoMoデータセット) LoCoMoベンチマーク6会話での比較結果: 手法 スコア コサイン類似度のみ 58.9% 数学的層あり(SLM-V3) 71.7% 差分 +12.8ポイント 特に注目すべきは、難しい会話ほど差が広がる点だ。最も複雑なconv-44では +19.9ポイントの差を記録している。コサイン類似度が最も苦手なスパース埋め込み領域でフィッシャー計量が効くという理論的予測と一致する。 アブレーション分析では、最も効果が大きかったのはクロスエンコーダ再ランク付け(除去すると-30.7ポイント)だった。数学的層の+12.8ポイントはこれと独立して機能する相補的な仕組みであり、どちらかだけで代替できるものではない。 ゼロLLM構成とEU AI法対応 SLM-V3はゼロLLM構成(クラウドAPI完全不要)で検索品質75%を達成している。これにより、EU AI法(規制2024/1689)のデータ主権要件をアーキテクチャ設計レベルで満たす初の評価となった。2026年8月の完全施行を見据えた設計だ。 コードと利用 コードはMITライセンスで公開されている。 GitHub: qualixar/superlocalmemory まとめ SLM-V3が提起する問題意識は明快だ。AIエージェントの記憶システムはコサイン類似度という「とりあえず動く」実装のまま止まっており、記憶量の増大・矛盾の蓄積・固定半減期という3つの設計上の欠陥を誰も研究問題として指摘してこなかった。 フィッシャー情報量メトリクス・シーフコホモロジー・リーマン・ランジュバン動力学という重厚な数学的道具立ては、記憶システムの「当たり前」を問い直す試みとして注目に値する。

2026年3月27日 · 1 分