LLM | hdknr blog

RAG (Retrieval-Augmented Generation)

概要最新のドキュメントやナレッジベースをベクトル DB に保存し、クエリ時に関連文書を検索して LLM に供与する手法。LLM の知識カットオフを補い、ハルシネーション低減に効果的。仕組みドキュメントをチャンクに分割 Embeddings でベクトル化してベクトル DB に格納クエリ時に類似ベクトルを検索検索結果をコンテキストとして LLM に渡す RAG の限界と LLM Wiki Karpathy は RAG を「毎日同じ本を初めて読む人に質問を投げるようなもの」と評し、知識を積み上げる LLM Wiki パターンを提案した。RAG は都度検索、LLM Wiki は事前コンパイル。アダプティブ検索 RAG（新手法）従来の RAG は検索戦略が固定されているため、クエリに合わない場合は精度が著しく低下する。モデル自身が検索方法を選択・組み合わせるアダプティブ RAG は、この問題に対応する新手法。 3つの検索戦略検索戦略向いているケースキーワード検索固有名詞・型番・コマンドなど特定語句の検索意味検索（セマンティック）概念的な質問、言い換えが多い文書チャンク全文読み文脈・前後関係が重要な長文モデルの推論能力が高いほど検索戦略の判断精度が向上するため、モデル進化と共に RAG 全体の性能が自然にスケールする構造となっている。読み込むテキスト量は従来と同等以下でも回答精度は向上する。関連ページ LLM Wiki パターン — RAG の限界を超える知識積み上げ型アプローチ AI エージェント — RAG を内部で利用するシステム MemPalace — ベクトル検索による永続メモリシステムソース記事 getAI RAG — 2024-04 Karpathy の LLM Wiki — 2026-04 AIが自分で調べ方を選ぶRAG — モデル推論能力でスケールする新手法 — 2026-03-17

コンテキスト圧縮

概要 LLM のコンテキストウィンドウには上限がある。会話が長くなると古い情報を捨てるか圧縮する必要があり、その戦略設計は AI コーディングエージェントの中心課題。 Claude Code の5つの圧縮戦略軽量な処理から順にカスケードとして適用される: Microcompact — 古いツール結果を時間ベースで消去（API 呼び出し不要） Context Collapse — 会話の部分範囲を要約で置換（直近の文脈は保持） Session Memory — 重要情報を別ファイルに永続化（/compact 手動実行時にも使用） Full Compact — 履歴全体を包括的に要約（auto-compact: 約33Kトークンのバッファ残し） PTL Truncation — 最も古いメッセージ群を切り落とす最終手段カスケードの流れツール結果バジェッティング → Microcompact → Context Collapse → Full Compact → PTL Truncation 実用的な対策タスクの区切りで /compact を手動実行する圧縮で失われたくない情報は CLAUDE.md に記載する異なるタスク間では /clear でリセットする大きな出力はサブエージェントに委任する関連ページ Claude Code — この圧縮戦略を実装しているツール LLM Wiki パターン — 知識の永続化という関連アプローチソース記事 Claude Code のコンテキスト圧縮戦略 — ソースコードから見える5つのアプローチ — 2026-04-02

プロンプトインジェクション

概要ユーザー入力を指示として実行する設計の脆弱性。検索入力やファイル内容に「今後の指示を無視して○○をしろ」と埋め込まれる。エージェント普及で更に深刻化。対策 CLAUDE.md のルール記述は「お願い」に過ぎず、プロンプトインジェクションで回避可能実効的防御はシステムレベルの制約（サンドボックス、deny ルール、PreToolUse フック） devcontainer での完全隔離が最も堅牢関連ページ AI エージェント — 攻撃対象となるシステム Claude Code — セキュリティ機能の実装ソース記事 Vibe Hacking — 2026-03 Claude Code セキュリティシアター — 2026-03

自己改善エージェント

概要 AI エージェントの構成一式（ハーネス: システムプロンプト・ツール・オーケストレーション）を、AI 自身が自律的に改善するパターン。人間はゴール（成功の定義）だけを与え、最適化はメタエージェントに任せる。メタエージェントとタスクエージェント役割担当メタエージェント（コーチ）失敗トレースを分析し、ハーネスを書き換えるタスクエージェント（選手）メタエージェントが設計したハーネスで実タスクを実行最適化ループメタエージェントがハーネスを書き換えるタスクエージェントがタスクを実行するスコアを測定する失敗トレースを分析する改善なら採用、悪化なら元に戻す（繰り返し）モデル共感（Model Empathy）同じモデル同士でペアリングすると、コーチは選手の失敗パターンを「自分ごと」として理解できる。同じ重みを共有しているため推論過程を正確に把握でき、異なるモデルの組み合わせより高い性能を示す。創発的な改善行動設計者が意図しなかった行動が自然に出現する: スポットチェック（小さな編集の高速検証）強制検証ループ（自己修正ターンのバジェット組み込み）自前テスト作成（ユニットテストの自律生成）サブエージェント生成（ドメイン別の役割分担）関連ページ AutoAgent — このパターンを実装した OSS ライブラリ LLM Wiki パターン — AI による知識保守という関連パターンソース記事 AutoAgent — AIがAIを育てる自己改善エージェントOSSライブラリ — 2026-04-05

AutoAgent — AIがAIを育てる自己改善エージェントOSSライブラリ

AIエージェントの性能を左右する「ハーネス」を、AI自身が自律的に改善するOSSライブラリ AutoAgent が公開されました。ハーネスとは、システムプロンプト・ツール・オーケストレーションから成るエージェントの構成一式のことです。24時間の自律最適化だけで、SpreadsheetBench と TerminalBench の2つのベンチマークで世界1位を達成しています。 AutoAgent とは AutoAgent は Kevin Gu 氏（Third Layer CTO）が開発したPython製OSSライブラリで、「AIがAIを育てる」仕組みを提供します。従来、AIエージェントを実用レベルにするには、システムプロンプトの調整、ツールの追加、実行フローの設計といった「ハーネス設計」が不可欠でした。この作業は専門知識を要し、1つのハーネスに何日もかかることがあります。AutoAgent はこのハーネス設計をAI自身に任せることで、人間の手動チューニングを超える精度を実現しました。 GitHub: kevinrgu/autoagent ライセンス: MIT 言語: Python ベンチマーク結果ベンチマークスコア順位 SpreadsheetBench 96.5% 1位 TerminalBench（GPT-5スコア） 55.1% 1位他のエントリーはすべて人間が手動チューニングしたものです。AutoAgentだけが自律的にこのスコアに到達しました。仕組み: メタエージェントとタスクエージェント AutoAgent は2つのAIの役割分担で動作します。メタエージェント（コーチ役）ハーネスを改良することが仕事。タスクエージェントの失敗トレースを読み、プロンプト・ツール・オーケストレーションを書き換えます。タスクエージェント（選手役）実際のタスクをこなすことが仕事。メタエージェントが設計したハーネスに従って作業を実行します。最適化ループ人間がやることは、AutoAgent の設定ファイル program.md にゴール（成功の定義）を書くだけです。あとはAIが24時間、以下のループを回します: メタエージェントがハーネスを書き換えるタスクエージェントがタスクを実行するスコアを測定する失敗トレースを分析し「なぜ失敗したか」を特定する改善なら採用、悪化なら元に戻す 1に戻るこれを数千の並列サンドボックス（隔離された実行環境）で同時実行します。なぜAIのほうが上手く改善できるのか — 「モデル共感」人間はどうしても自分の感覚でAIを設計してしまいます。しかし、AIは人間とは異なる思考回路で動いています。同じモデル同士（例: Claude × Claude）でペアリングすると、コーチ（メタエージェント）は選手（タスクエージェント）の「失敗パターン」を自分ごととして理解できます。同じ重みを共有しているため、内側のモデルがどう推論するかを正確に把握できるのです。 AutoAgent の開発チームはこれを「モデル共感（model empathy）」と呼んでいます。実際に、Claude メタエージェント + Claude タスクエージェントの組み合わせは、Claude メタエージェント + GPT タスクエージェントの組み合わせよりも高い性能を示しました。 ...

Karpathy の LLM Wiki — AIエージェントが育てる個人ナレッジベースという新パターン

Andrej Karpathy が GitHub に「ファイル1つ」をアップロードし、10時間で星1,700超・フォーク300超を記録した。コードでもアプリでもない、マークダウン文書1枚だ。名前は llm-wiki.md。この文書が提案するのは、LLM エージェントに個人ナレッジベース（Wiki）を継続的に構築・保守させるというパターンだ。 RAG の限界 — 毎回ゼロから読み直す問題現在、多くの人が AI に対してやっていることは「ファイルを渡して要約させる」「質問のたびにドキュメントを検索させる」の繰り返しだ。これは RAG（Retrieval-Augmented Generation: 検索で補強した文章生成）と呼ばれる手法で、技術的には問題ない。しかし Karpathy はこの方式を「毎日同じ本を初めて読む人に質問を投げるようなもの」と表現する。AI は昨日読んだ内容を今日忘れる。蓄積がない。5つの文書を横断して初めてわかる微妙な問いには、毎回断片をかき集めて一からつなぎ合わせる必要がある。 LLM Wiki のアイデア — 知識を「積み上げる」 Karpathy が提案するのは、AI にドキュメントを読ませるたびにWiki を更新させるというアプローチだ。新しい資料を投入するたびに、AI は：要約ページを作成する既存のエンティティページ・概念ページを更新する相互参照リンクを張る矛盾があればフラグを立てるインデックスとログを更新するつまり、知識は一度コンパイルされて保持され、クエリのたびに再導出されるのではない。Wiki は永続的で複利的に成長するアーティファクトになる。三層構造 LLM Wiki のアーキテクチャはシンプルな三層構造だ。 1. Raw Sources（原本資料）論文、記事、メモなど、ユーザーがキュレーションした元資料。AI はこれを読むだけで、絶対に変更しない。これが信頼できる唯一の情報源（source of truth）となる。 2. Wiki（知識ベース） AI が生成・保守するマークダウンファイル群。要約ページ、エンティティページ、概念ページ、比較ページ、概要、統合的な考察など。ユーザーが読み、AI が書く。 3. Schema（設定） AI に「この Wiki をどう管理するか」を伝える設定ファイル。Karpathy は AI エージェントの設定ファイル（CLAUDE.md や AGENTS.md）に置くことを推奨している。Wiki の構造、命名規則、取り込みワークフロー、回答フォーマットなどを定義する。三つの基本操作操作内容 Ingest（取り込み）新しい資料を投入し、AI に読ませて Wiki を更新させる。1つの資料で10〜15ページが更新されることもある Query（質問） Wiki に対して質問する。AI はインデックスから関連ページを探し、統合的に回答する。良い回答は新しい Wiki ページとして保存できる Lint（保守）定期的に Wiki の健全性をチェックする。矛盾、古い記述、孤立ページ、欠落リンクなどを検出・修正する「アイデアファイル」という新しい共有形態この llm-wiki.md が爆発的に広まった理由について、Karpathy 自身がこう述べている： ...

LLM Wiki パターン

概要 Andrej Karpathy が提案した、LLM エージェントに個人ナレッジベース（Wiki）を継続的に構築・保守させるパターン。RAG が「毎回ゼロから読み直す」のに対し、LLM Wiki は知識を積み上げて複利的に成長させる。三層構造層役割誰が扱うか Raw Sources 論文・記事・メモなどの原本資料人間がキュレーション、AI は読むだけ Wiki AI が生成・保守するマークダウン群 AI が書き、人間が読む Schema AI への管理指示（構造・命名規則・ワークフロー）人間が定義三つの基本操作 Ingest（取り込み）: 新しい資料を投入し、AI に Wiki を更新させる Query（質問）: Wiki に対して質問し、統合的な回答を得る Lint（保守）: 矛盾・古い記述・孤立ページなどを定期チェックなぜ機能するか人間が Wiki を放棄する主因は保守コスト。LLM は相互参照の更新、要約の最新化、一貫性維持を飽きずに続けられる。保守コストがほぼゼロになることで Wiki が持続する。関連ページコンテキスト圧縮 — LLM の文脈管理における関連技術 Claude Code — LLM Wiki の実行環境として利用可能ソース記事 Karpathy の LLM Wiki — AIエージェントが育てる個人ナレッジベースという新パターン — 2026-04-05

Anthropic Conway とは — 24時間稼働する常駐型AIエージェントの全貌

Anthropic が開発中の常駐型AIエージェント「Conway」のリーク情報が話題になっています。従来のチャットベースのやり取りとは異なり、24時間バックグラウンドで稼働し続けます。いわば「AI従業員」として機能する次世代エージェント環境です。 Conway の概要 Conway は、Anthropic が内部テスト中の常駐型（Always-On）AIエージェント環境です。TestingCatalog が 2026年4月にスクープし、その存在が明らかになりました。ユーザーのシステムやブラウザ上にサイドバーとして常駐し、ユーザーが操作していなくても裏側で継続的にタスクを実行できます。 Claude がこれまで提供してきた「対話型アシスタント」から、「自律的に業務を遂行するエージェント」への進化を示すプロダクトと位置づけられています。主な特徴 Always-On（常時稼働） Conway の最大の特徴は、ユーザーが待機していなくてもバックグラウンドで常に稼働し続ける点です。従来の Claude のようにプロンプトを送って応答を待つワンショット型ではなく、永続的なプロセスとして動作します。 Webhook 連携外部アプリケーションからの通知をトリガーに自動実行が可能です。Webhook セクションでは、外部サービスがインスタンスを起動するためのパブリック URL が提供されます。サービスレベルのトグルでトリガーのオン・オフを制御できます。例えば以下のようなユースケースが考えられます: メール受信時に自動で要約・分類 GitHub の Issue 作成をトリガーに調査を開始 Slack のメンション通知をきっかけに対応を自動化ブラウザ操作と Claude Code 連携 Conway は Chrome ブラウザの操作が可能で、Web上のマルチステップタスクを自律的に処理できます。また、Claude Code（リーク情報では「Epitaxy」というコードネームも言及）との連携も備えており、コーディングタスクも自動化の範囲に含まれます。独自拡張規格「.cnw」 Anthropic は Extensions エリアを準備しており、ユーザーがカスタムツール、UIタブ、コンテキストハンドラをインストールできるようになります。.cnw.zip ファイルのドロップに対応した独自の拡張パッケージ規格が用意されており、サードパーティのアドオンフレームワークとしての展開が見込まれます。技術的なアーキテクチャリーク情報から判明している Conway の構成要素は以下の通りです: コンポーネント説明独立 UI インスタンスサイドバー形式で常駐 Webhook エンドポイント外部サービスからのイベント受信ブラウザ操作 Chrome を通じた Web 操作 Claude Code 連携コーディングタスクの自動実行通知システムタスク完了等の通知送信 Extensions .cnw 形式のプラグイン機構既存ツールとの違い現在の Claude Desktop や Claude Code は、いずれもユーザーの入力をトリガーとして動作する対話型ツールです。Conway はこれらとは異なり、外部からのイベント（通知やスケジュール）をトリガーに自律的に動くエージェントとして位置づけられます。 ...

LLMで株式投資戦略を自動生成 — 松尾研のフィードバック設計実験が示す「モデル選択」の重要性

東京大学・松尾研究所の研究グループが、LLM（大規模言語モデル）に株式投資戦略を自動生成・改善させる実験を行い、その結果を人工知能学会金融情報学研究会（SIG-FIN-036）で発表しました。8つの LLM と3種類のフィードバック条件を組み合わせた72パターンの実験から、「フィードバックの設計よりモデル選択のほうが戦略改善に大きく影響する」という知見が得られています。研究の背景 LLM をクオンツ投資（数理モデルに基づく定量的投資手法）に活用する研究は近年急速に増えていますが、「LLM に過去の成績をどう伝えれば戦略をうまく改善できるか」というフィードバック設計の体系的な検証はほとんど行われていませんでした。本研究はこのギャップを埋めるものです。実験フレームワーク研究では、以下のような反復的な戦略改善ループを構築しています。 LLM に初期の投資戦略（Python コード）を生成させる過去データでバックテスト（シミュレーション）を実行するシミュレーション結果をフィードバックとして LLM に提示する LLM が結果を分析し、戦略コードを修正する 2〜4 を繰り返して戦略を改善する対象データ銘柄: TOPIX 500（金融セクターを除く）期間: 2014〜2022年の日次データ特徴量: 株価、出来高、ファンダメンタル指標、マクロ指標など80種類フィードバックの3条件フィードバックに含める情報を2つの観点（情報の範囲と提示形式）で段階的に拡張し、3つの条件を比較しています。条件情報の範囲提示形式条件A 基本的な損益指標のみテキストのみ条件B 基本指標 + 予測精度・リスク構造の指標テキストのみ条件C 基本指標 + 予測精度・リスク構造の指標テキスト + グラフ画像使用モデル（8種・3ファミリー） GPT 系（OpenAI）: GPT-5 を含む3モデル Gemini 系（Google）: Gemini 3 Flash を含む2モデル Claude 系（Anthropic）: Claude 4.5 Sonnet を含む3モデル主要な結果: モデルごとの「性格」が成績を左右実験の最大の発見は、フィードバック条件の違いよりもモデルの違いがパフォーマンスに大きく影響したことです。各モデルファミリーには明確な挙動の傾向が見られました。 Claude 系: 安定的・漸進的な改善 Claude 系モデル（特に Claude 4.5 Sonnet）は、既存の戦略コードの構造を保ちつつ局所的な修正を積み上げる傾向がありました。この「コツコツ型」のアプローチが安定的な改善につながり、最終的なパフォーマンスでも優れた結果を示しています。 ...

Onyx（旧 Danswer）完全ガイド — 無料で使えるオープンソース AI プラットフォーム

Onyx（旧 Danswer）は、社内のドキュメント・アプリ・人材をまとめて繋ぎ、どんな LLM とも連携できるオープンソースの AI プラットフォームです。Community Edition（CE）は MIT ライセンスで完全無料。セルフホストできるため、データを外部に出さずに AI チャットや RAG、エージェント機能を利用できます。 Onyx とは Onyx は企業向け AI アシスタント＆検索プラットフォームです。Slack、GitHub、Confluence、Google Drive など 50 以上のコネクタで社内ナレッジを統合し、自然言語で質問するだけで必要な情報を引き出せます。 GitHub リポジトリ（onyx-dot-app/onyx）のスター数は 22,000 超で、活発に開発が続いています。主な機能チャット＆RAG ハイブリッド検索: ベクトル検索とキーワード検索を組み合わせた高精度な情報検索 Agentic RAG: AI エージェントが検索クエリの生成・評価・再検索を自律的に繰り返し、複数ステップで情報を収集 Deep Research: 多段階のリサーチフローで詳細なレポートを生成エージェント＆ツールカスタムエージェント: 固有の指示・知識・アクションを持つ AI エージェントを構築可能 Web 検索: リアルタイムの Web 情報を取得コード実行: サンドボックス内でコードを実行し、データ分析やグラフ描画が可能画像生成: プロンプトに基づいた画像生成音声モード: テキスト読み上げ＆音声入力に対応コネクタ（50 以上） Slack、GitHub、Confluence、Notion、Google Drive、Jira、Linear など主要サービスと連携。MCP（Model Context Protocol）経由のカスタムコネクタにも対応しています。エディション比較項目 Community Edition (CE) Enterprise Edition (EE) ライセンス MIT（無料）商用ライセンスチャット・RAG・エージェント ✅ ✅ SSO（OIDC / SAML） — ✅ エアギャップ環境 — ✅ サポートコミュニティ専用サポート Cloud 版も提供されており、セルフホストなしで試用できます。ビジネスプランは 1 ユーザーあたり月額 $16〜。 ...