RAGの長年の課題である「回答の網羅性の欠如」を、ベクトルDBを使わずに解決しようとする論文が登場した。2026年4月16日にarXivに公開された論文「Don’t Retrieve, Navigate」は、Corpus2Skill という新手法を提案している。文書コーパスを階層的スキルディレクトリへ事前変換し、LLMエージェントがナビゲートして回答を構築するアプローチだ。
従来のRAGが抱える課題
RAG(Retrieval-Augmented Generation)はこの数年で大きく進化し、多くの問題が解決されてきた。しかし「AIの回答が網羅的でない」という問題は依然として未解決のままだ。
従来のベクトル検索ベースのRAGでは、クエリに類似したチャンクをいくつか取得して回答を生成する。この方式の弱点は以下の通りだ。
- クエリ表現に引きずられ、関連する別の観点の文書を見落とす
- チャンク間の文脈的なつながりが断ち切られる
- 広範なトピックをカバーする質問への回答が部分的になりがち
Corpus2Skillのアプローチ:「検索するな、ナビゲートせよ」
Corpus2Skillは発想を根本から変える。ベクトル検索で文書を「取ってくる」のではなく、人間が目次や索引を辿るように、エージェントがコーパスの階層構造を「ナビゲートする」。
オフラインのコンパイルパイプライン
まず事前処理として、文書コーパスを階層的スキルディレクトリへ変換する。
- 反復クラスタリング — 全文書をk-meansなどでグループ化する
- LLM生成サマリー — 各クラスタの内容をLLMが要約する
- 階層化 — クラスタをさらに上位概念でまとめ、ピラミッド構造を構築する
- スキルファイルツリーの実体化 — 結果を
SKILL.md/INDEX.mdの形式でファイルシステムに保存する
この処理はオフラインで行われるため、推論時の遅延には影響しない。
推論時のナビゲーション
質問が来たとき、LLMエージェントは次の手順で回答を構築する。
- コーパス全体の俯瞰図(ルートサマリー)を受け取る
- 質問に関連する上位ブランチを選択し、段階的に下位サマリーへ降下する
- 目的のノードに到達したら、文書IDを使って完全な文書を取得する
- 必要に応じてバックトラックし、別のブランチも探索する
この探索パスが明示的に推論されるため、なぜその文書が取得されたかを追跡できるという副次的なメリットもある。
ベクトルDBが不要になる理由
従来のRAGではベクトルDB(Pinecone, Weaviate, Chromaなど)が必須だった。Corpus2Skillでは、スキルファイルツリーがその役割を置き換える。
| 項目 | 従来のRAG | Corpus2Skill |
|---|---|---|
| インデックス形式 | ベクトルDB | 階層ファイルツリー |
| 検索方式 | 類似度検索 | エージェントによるナビゲーション |
| インフラ依存 | ベクトルDBが必要 | ファイルシステムのみ |
| スケーラビリティ | O(N) | O(log N) |
| 探索パスの透明性 | 低い | 高い(明示的に推論) |
文書数が10万件でも階層深度はO(log N)に収まるため、大規模コーパスへのスケーラビリティが高い点も特長だ。
実験結果
WixQAベンチマーク
Wix社の企業向け顧客サポートを対象とするWixQAベンチマークで評価した。比較対象は以下のベースラインだ。
- Dense Retrieval(密集検索): 従来のベクトル検索RAG
- RAPTOR: 階層的サマリーを使った検索手法
- Agent RAG: エージェントが検索を制御する手法
Corpus2Skillは全品質指標でこれらすべてを上回った。
RAGBenchでの汎化性能
WixQAを含む計10データセット(RAGBench 9サブセット+WixQA)を横断した評価でも、マクロ平均F1において最高値を達成した。
限界の正直な開示
論文は適用範囲の限界も明示している。
- 得意: 単一ドメインの原子的文書コーパス(企業ナレッジベース、製品マニュアルなど)
- 苦手: オープンドメインの質問や抽出型プール(複数文書から断片を抜き出して回答を合成する形式)— この場合は従来のフラット検索が依然有利
まとめ
Corpus2Skillは、RAGの網羅性問題に対してシンプルな直感から出発した手法だ。「目次があれば人間は迷わず情報を探せる」という人間の情報探索パターンをLLMエージェントに模倣させる。
ベクトルDBというインフラへの依存を排除し、O(log N)のスケーラビリティを持ちながら、全ベースラインを上回る精度を達成した点は注目に値する。企業内ナレッジベースへの応用が特に期待される。
論文: Don’t Retrieve, Navigate: Distilling Enterprise Knowledge into Navigable Agent Skills for QA and RAG(Yiqun Sun, Pengfei Wei, Lawrence B. Hsieh — 2026年4月16日)