RAG | hdknr blog

RAG (Retrieval-Augmented Generation)

概要最新のドキュメントやナレッジベースをベクトル DB に保存し、クエリ時に関連文書を検索して LLM に供与する手法。LLM の知識カットオフを補い、ハルシネーション低減に効果的。仕組みドキュメントをチャンクに分割 Embeddings でベクトル化してベクトル DB に格納クエリ時に類似ベクトルを検索検索結果をコンテキストとして LLM に渡す RAG の限界と LLM Wiki Karpathy は RAG を「毎日同じ本を初めて読む人に質問を投げるようなもの」と評し、知識を積み上げる LLM Wiki パターンを提案した。RAG は都度検索、LLM Wiki は事前コンパイル。関連ページ LLM Wiki パターン — RAG の限界を超える知識積み上げ型アプローチ AI エージェント — RAG を内部で利用するシステムソース記事 getAI RAG — 2024-04 Karpathy の LLM Wiki — 2026-04

Karpathy の LLM Wiki — AIエージェントが育てる個人ナレッジベースという新パターン

Andrej Karpathy が GitHub に「ファイル1つ」をアップロードし、10時間で星1,700超・フォーク300超を記録した。コードでもアプリでもない、マークダウン文書1枚だ。名前は llm-wiki.md。この文書が提案するのは、LLM エージェントに個人ナレッジベース（Wiki）を継続的に構築・保守させるというパターンだ。 RAG の限界 — 毎回ゼロから読み直す問題現在、多くの人が AI に対してやっていることは「ファイルを渡して要約させる」「質問のたびにドキュメントを検索させる」の繰り返しだ。これは RAG（Retrieval-Augmented Generation: 検索で補強した文章生成）と呼ばれる手法で、技術的には問題ない。しかし Karpathy はこの方式を「毎日同じ本を初めて読む人に質問を投げるようなもの」と表現する。AI は昨日読んだ内容を今日忘れる。蓄積がない。5つの文書を横断して初めてわかる微妙な問いには、毎回断片をかき集めて一からつなぎ合わせる必要がある。 LLM Wiki のアイデア — 知識を「積み上げる」 Karpathy が提案するのは、AI にドキュメントを読ませるたびにWiki を更新させるというアプローチだ。新しい資料を投入するたびに、AI は：要約ページを作成する既存のエンティティページ・概念ページを更新する相互参照リンクを張る矛盾があればフラグを立てるインデックスとログを更新するつまり、知識は一度コンパイルされて保持され、クエリのたびに再導出されるのではない。Wiki は永続的で複利的に成長するアーティファクトになる。三層構造 LLM Wiki のアーキテクチャはシンプルな三層構造だ。 1. Raw Sources（原本資料）論文、記事、メモなど、ユーザーがキュレーションした元資料。AI はこれを読むだけで、絶対に変更しない。これが信頼できる唯一の情報源（source of truth）となる。 2. Wiki（知識ベース） AI が生成・保守するマークダウンファイル群。要約ページ、エンティティページ、概念ページ、比較ページ、概要、統合的な考察など。ユーザーが読み、AI が書く。 3. Schema（設定） AI に「この Wiki をどう管理するか」を伝える設定ファイル。Karpathy は AI エージェントの設定ファイル（CLAUDE.md や AGENTS.md）に置くことを推奨している。Wiki の構造、命名規則、取り込みワークフロー、回答フォーマットなどを定義する。三つの基本操作操作内容 Ingest（取り込み）新しい資料を投入し、AI に読ませて Wiki を更新させる。1つの資料で10〜15ページが更新されることもある Query（質問） Wiki に対して質問する。AI はインデックスから関連ページを探し、統合的に回答する。良い回答は新しい Wiki ページとして保存できる Lint（保守）定期的に Wiki の健全性をチェックする。矛盾、古い記述、孤立ページ、欠落リンクなどを検出・修正する「アイデアファイル」という新しい共有形態この llm-wiki.md が爆発的に広まった理由について、Karpathy 自身がこう述べている： ...

LLM Wiki パターン

概要 Andrej Karpathy が提案した、LLM エージェントに個人ナレッジベース（Wiki）を継続的に構築・保守させるパターン。RAG が「毎回ゼロから読み直す」のに対し、LLM Wiki は知識を積み上げて複利的に成長させる。三層構造層役割誰が扱うか Raw Sources 論文・記事・メモなどの原本資料人間がキュレーション、AI は読むだけ Wiki AI が生成・保守するマークダウン群 AI が書き、人間が読む Schema AI への管理指示（構造・命名規則・ワークフロー）人間が定義三つの基本操作 Ingest（取り込み）: 新しい資料を投入し、AI に Wiki を更新させる Query（質問）: Wiki に対して質問し、統合的な回答を得る Lint（保守）: 矛盾・古い記述・孤立ページなどを定期チェックなぜ機能するか人間が Wiki を放棄する主因は保守コスト。LLM は相互参照の更新、要約の最新化、一貫性維持を飽きずに続けられる。保守コストがほぼゼロになることで Wiki が持続する。関連ページコンテキスト圧縮 — LLM の文脈管理における関連技術 Claude Code — LLM Wiki の実行環境として利用可能ソース記事 Karpathy の LLM Wiki — AIエージェントが育てる個人ナレッジベースという新パターン — 2026-04-05

Onyx（旧 Danswer）完全ガイド — 無料で使えるオープンソース AI プラットフォーム

Onyx（旧 Danswer）は、社内のドキュメント・アプリ・人材をまとめて繋ぎ、どんな LLM とも連携できるオープンソースの AI プラットフォームです。Community Edition（CE）は MIT ライセンスで完全無料。セルフホストできるため、データを外部に出さずに AI チャットや RAG、エージェント機能を利用できます。 Onyx とは Onyx は企業向け AI アシスタント＆検索プラットフォームです。Slack、GitHub、Confluence、Google Drive など 50 以上のコネクタで社内ナレッジを統合し、自然言語で質問するだけで必要な情報を引き出せます。 GitHub リポジトリ（onyx-dot-app/onyx）のスター数は 22,000 超で、活発に開発が続いています。主な機能チャット＆RAG ハイブリッド検索: ベクトル検索とキーワード検索を組み合わせた高精度な情報検索 Agentic RAG: AI エージェントが検索クエリの生成・評価・再検索を自律的に繰り返し、複数ステップで情報を収集 Deep Research: 多段階のリサーチフローで詳細なレポートを生成エージェント＆ツールカスタムエージェント: 固有の指示・知識・アクションを持つ AI エージェントを構築可能 Web 検索: リアルタイムの Web 情報を取得コード実行: サンドボックス内でコードを実行し、データ分析やグラフ描画が可能画像生成: プロンプトに基づいた画像生成音声モード: テキスト読み上げ＆音声入力に対応コネクタ（50 以上） Slack、GitHub、Confluence、Notion、Google Drive、Jira、Linear など主要サービスと連携。MCP（Model Context Protocol）経由のカスタムコネクタにも対応しています。エディション比較項目 Community Edition (CE) Enterprise Edition (EE) ライセンス MIT（無料）商用ライセンスチャット・RAG・エージェント ✅ ✅ SSO（OIDC / SAML） — ✅ エアギャップ環境 — ✅ サポートコミュニティ専用サポート Cloud 版も提供されており、セルフホストなしで試用できます。ビジネスプランは 1 ユーザーあたり月額 $16〜。 ...

MiroFish その後: 3週間で GitHub Star 4.7万超へ — コミュニティの広がりと今後の展望

以前の記事で紹介した AI 予測エンジン「MiroFish」が、公開から約3週間で GitHub Star 4.7万超にまで急成長しています。本記事では、その後の動向とコミュニティの広がりを追います。 3週間での急成長 3月10日時点で約11,000だった Star 数は、3月末時点で 47,000以上に到達しました。約3週間で4倍以上の成長です。 GitHub Trending で世界1位を獲得した直後の注目度に加え、盛大グループ創業者・陳天橋氏からの3,000万元（約6億円）の即決投資が報じられたことで、AI エージェント分野への関心の高さを示すプロジェクトとして広く認知されました。コミュニティの広がり MiroFish のオープンソース公開後、コミュニティによる派生プロジェクトが活発に展開されています。オフライン版フォーク MiroFish-Offline は、Neo4j と Ollama を使ったローカル完結型のフォークです。クラウド API への依存を排除し、プライベートな環境でマルチエージェントシミュレーションを実行できます。企業内のデータを外部に出せないケースなどでの活用が想定されます。デモサイト公式デモサイトが公開されており、ブラウザ上で MiroFish の予測プロセスを体験できます。多言語対応フォーク英語版 README の整備や、コミュニティによる英語フォークも複数登場し、中国語圏以外への普及が進んでいます。群体知能アプローチへの注目 MiroFish が採用する群体知能（Swarm Intelligence）アプローチは、従来の AI 予測と異なる特徴を持っています。従来の予測モデルは統計的パターンや単一モデルの推論に依存しています。一方、MiroFish は数千のエージェントによる社会的シミュレーションを通じて予測を行います。エージェント同士が議論し、説得し、立場を変えるプロセスを経ることで、集団行動や社会的伝播といった創発的パターンを予測に反映できます。このアプローチは、特に世論形成や市場心理のような「人間の集団行動」が結果を左右する領域で有効性が期待されています。今後の注目点 MiroFish の急成長は印象的ですが、今後の展開にはいくつかの注目点があります。予測精度の検証: 実際のイベントに対する予測精度がどの程度か、体系的な評価はまだ少ないスケーラビリティ: OASIS エンジンは100万エージェント対応を謳うが、実運用での性能と品質のバランス LLM コスト: 数千エージェントの同時推論に必要な API コストの最適化ユースケースの深化: 汎用的な「万物を予測」から、特定領域での実用性の実証まとめ MiroFish は、公開からわずか3週間で GitHub Star 4.7万超という驚異的な成長を遂げました。オフライン版フォークやデモサイトの登場など、コミュニティの展開も活発です。群体知能によるマルチエージェント予測というコンセプトは多くの開発者の関心を集めていますが、実用面での検証はこれからです。今後の予測精度の実証やユースケースの深化に注目していきたいプロジェクトです。参考リンク MiroFish GitHub リポジトリ MiroFish-Offline (ローカル版フォーク) MiroFish: The AI Swarm Engine That Simulates the Future 前回の記事: MiroFish — 20歳の学生が10日間の Vibe Coding で作った AI 未来予測エンジン

OpenDataLoader PDF — CPUだけで毎秒100ページ、PDFをMarkdownに超高速変換するOSSツール

GPUなしで毎秒100ページ以上のPDF→Markdown変換を実現するオープンソースツール「OpenDataLoader PDF」が話題になっている。Apache 2.0ライセンスで完全無料、CPUのみで動作するため、高価なGPUハードウェアは不要だ。 OpenDataLoader PDF とは OpenDataLoader PDF は、PDFドキュメントをAI活用に適した構造化データ（Markdown、JSON、HTML等）に変換するオープンソースのパーサーだ。Java で実装されており、Python・Node.js・Java から利用できる。主な特徴: 超高速処理: ローカルモードで 0.05秒/ページ（CPUのみ）、8コア以上のマシンでマルチプロセスバッチ処理すると毎秒100ページ以上 GPU不要: CPUだけで高速に動作するため、導入コストが低い高精度: ベンチマークで総合精度0.90を達成し、読み順・テーブル・見出し抽出で1位 Apache 2.0ライセンス: 商用利用可能な完全オープンソースインストール Python パッケージは Java CLI のラッパーのため、Java 11以上とPython 3.10以上が必要だ。 1 2 3 4 5 # Python pip install -U opendataloader-pdf # Node.js npm install @opendataloader/pdf Java の場合は Maven で opendataloader-pdf-core を依存関係に追加する。基本的な使い方 Python でのシンプルな変換 1 2 3 4 5 6 7 import opendataloader_pdf opendataloader_pdf.convert( input_path=["file1.pdf", "file2.pdf", "folder/"], output_dir="output/", format="markdown,json" ) フォルダを指定すれば一括変換も可能だ。出力形式は Markdown、JSON、HTML、プレーンテキスト、注釈付きPDFから選べる。 ...

Google Gemini Embedding 2：テキスト・画像・動画・音声を統一ベクトル空間に埋め込むマルチモーダル埋め込みモデル

Google が 2026年3月に公開した Gemini Embedding 2 は、テキスト・画像・動画・音声・ドキュメントを同一のベクトル空間に埋め込める、初のネイティブマルチモーダル埋め込みモデルだ。RAG パイプラインやマルチモーダル検索を構築する開発者にとって注目すべきモデルとなっている。主な特徴ネイティブマルチモーダル対応従来の埋め込みモデルはテキスト専用か、別モデルで画像を処理する必要があった。Gemini Embedding 2 は全モダリティを 3072次元の統一ベクトル空間に直接埋め込む。これにより、テキストで検索して関連する画像や動画を取得するといったクロスモーダル検索が自然に実現できる。対応モダリティと制限: モダリティ制限テキスト最大 8,192 トークン画像 1リクエストあたり最大 6枚（PNG, JPEG）動画最大 120秒（MP4, MOV）音声ネイティブ対応（テキスト変換不要）インターリーブ入力にも対応しており、1つのリクエストに画像とテキストを混在させて渡すことができる。 Matryoshka 表現学習（MRL） Matryoshka Representation Learning（マトリョーシカ表現学習）により、重要な意味情報がベクトルの先頭次元に集約される設計になっている。デフォルトの 3,072次元から 1,536 や 768次元に切り詰めても、検索品質の大部分を維持できる。 Google の推奨次元数: 3,072次元：最高品質 1,536次元：高品質（コスト削減向け） 768次元：バランスの良い推奨値 768次元に切り詰めた場合でも、同サイズの固定次元モデルを上回る性能を発揮するとされている。多言語対応と性能 100以上の言語をサポート MTEB 多言語リーダーボードで 69.9 を記録しトップランク MTEB コード検索でも 84.0 と高スコア料金プラン料金リアルタイム API $0.20 / 100万トークンバッチ API $0.10 / 100万トークン（50% OFF） OpenAI の text-embedding-3-small（$0.02/100万トークン）と比較すると高価だが、マルチモーダル対応を単一モデルで実現している点が差別化要因となる。 ...

ローカルQwenに個人知識を覚えさせたい — ファインチューニング vs RAG

ローカルで Ollama + Qwen を動かしている Mac Studio（M3 Ultra / 96GB）に、NAS 上の PDF やテキストなどのドキュメントを学習させて「個人の知識ベース」として活用したい——そんなとき、ファインチューニングと RAG のどちらを選ぶべきかを整理する。やりたいこと NAS に蓄積された個人ドキュメント（PDF、テキスト等）の知識を Qwen に覚えさせたい自分の PC を使った活動に関する知識を、AI が把握している状態にしたい選択肢1: ファインチューニング（QLoRA）モデル自体の重みを更新し、知識を「記憶」させるアプローチ。 Mac Studio での実現可能性 M3 Ultra / 96GB 統合メモリなら、QLoRA でのファインチューニングは技術的に可能。手法必要メモリ目安（7B）ツール QLoRA (4bit) 6-8 GB Unsloth, LLaMA-Factory, MLX LoRA (16bit) 14-16 GB LLaMA-Factory, PEFT フル FT 60+ GB 非現実的 Apple Silicon では MLX ベースが最もパフォーマンスが良い。 1 2 3 4 5 6 7 8 9 10 # MLX での QLoRA 実行例 pip install mlx-lm mlx_lm.lora \ --model Qwen/Qwen2.5-Coder-14B-Instruct \ --data ./training_data \ --train \ --batch-size 1 \ --lora-layers 16 \ --iters 1000 ファインチューニングの課題最大のボトルネックはデータ準備。NAS の生ファイルはそのまま学習データにはならず、instruction 形式への変換が必要になる。 ...

Agentic AI 学習ロードマップ — 「フルスタックインテリジェンス」を9ヶ月で習得する体系的な道筋

Agentic AI 学習ロードマップ — 「フルスタックインテリジェンス」を9ヶ月で習得する体系的な道筋 @ingliguori 氏（Giuliano Liguori）のポストが、Agentic AI を学ぶためのロードマップを共有しています。 Roadmap to learn Agentic AI: AI fundamentals → Python + frameworks → LLMs → Agents architecture → Memory + RAG → Planning & decision-making → RL & self-improvement → Deployment → Real-world automation Agentic AI = full-stack intelligence. 「Agentic AI = フルスタックインテリジェンス」というフレーズが示すように、AI エージェントの開発には基礎数学からデプロイまで、フルスタックの知識が求められます。本記事では、このロードマップを複数の学習リソースと照合しながら、各段階で何を学び、どのツールを使い、どこまでを目指すのかを体系的に解説します。ロードマップの全体像 Liguori 氏が示した9ステップを、Scaler の9ヶ月ロードマップと roadmap.sh の AI Agents ロードマップを参考に、時系列で整理します。月0-1 AI Fundamentals ← 数学 + ML 基礎月1-2 Python + Frameworks ← API + ライブラリ月2-3 LLMs ← Transformer + プロンプト月3-4 Agents Architecture ← ReAct + ツール使用月4-5 Memory + RAG ← ベクトル DB + 検索拡張月5-6 Planning & Decision ← 計画 + マルチエージェント月6-7 RL & Self-improvement ← フィードバック + 自律性月7-8 Deployment ← MLOps + 監視月8-9 Real-world Automation ← ポートフォリオ + 実案件 Step 1: AI Fundamentals（月0-1）学ぶこと分野具体的な内容線形代数ベクトル、行列演算、固有値分解、SVD 微積分勾配、偏微分、最適化確率・統計ベイズの定理、分布、仮説検定 ML 基礎教師あり/なし学習、評価指標推奨リソース Khan Academy — 数学基礎 “Mathematics for Machine Learning”（書籍） StatQuest — 統計の直感的理解この段階のゴール「なぜニューラルネットワークが動くのか」を数学的に説明できること。数式を書ける必要はないが、勾配降下法やベイズ推論の直感を持つことが重要です。 ...

Agentic AIの周期表 — 66要素で読み解くAIエージェント構築の全体像

Agentic AI の周期表 — 66 要素で読み解く AI エージェント構築の全体像 @ingliguori（Giuliano Liguori）氏のポストが話題になっています。 Agentic AI now has its own “Periodic Table”. From: LLM, RAG, RL to PLAN, MAS, LTM to SAFE, HUMAN oversight to HR, MKT, LEGAL use cases. Autonomous AI = memory + planning + tools + safety + collaboration. It’s a system, not a prompt. Capital One の Chief Scientist である Prem Natarajan 氏が、AI エージェント構築に必要な 66 の要素を化学の周期表のように体系化した「Agentic AI Periodic Table」を公開しました。LLM や RAG といった基盤技術から、メモリシステム、安全性プロトコル、業務適用まで、エージェント開発の全領域を一枚の表に凝縮しています。 ...