LLM | hdknr blog

Anthropic Conway とは — 24時間稼働する常駐型AIエージェントの全貌

Anthropic が開発中の常駐型AIエージェント「Conway」のリーク情報が話題になっています。従来のチャットベースのやり取りとは異なり、24時間バックグラウンドで稼働し続けます。いわば「AI従業員」として機能する次世代エージェント環境です。 Conway の概要 Conway は、Anthropic が内部テスト中の常駐型（Always-On）AIエージェント環境です。TestingCatalog が 2026年4月にスクープし、その存在が明らかになりました。ユーザーのシステムやブラウザ上にサイドバーとして常駐し、ユーザーが操作していなくても裏側で継続的にタスクを実行できます。 Claude がこれまで提供してきた「対話型アシスタント」から、「自律的に業務を遂行するエージェント」への進化を示すプロダクトと位置づけられています。主な特徴 Always-On（常時稼働） Conway の最大の特徴は、ユーザーが待機していなくてもバックグラウンドで常に稼働し続ける点です。従来の Claude のようにプロンプトを送って応答を待つワンショット型ではなく、永続的なプロセスとして動作します。 Webhook 連携外部アプリケーションからの通知をトリガーに自動実行が可能です。Webhook セクションでは、外部サービスがインスタンスを起動するためのパブリック URL が提供されます。サービスレベルのトグルでトリガーのオン・オフを制御できます。例えば以下のようなユースケースが考えられます: メール受信時に自動で要約・分類 GitHub の Issue 作成をトリガーに調査を開始 Slack のメンション通知をきっかけに対応を自動化ブラウザ操作と Claude Code 連携 Conway は Chrome ブラウザの操作が可能で、Web上のマルチステップタスクを自律的に処理できます。また、Claude Code（リーク情報では「Epitaxy」というコードネームも言及）との連携も備えており、コーディングタスクも自動化の範囲に含まれます。独自拡張規格「.cnw」 Anthropic は Extensions エリアを準備しており、ユーザーがカスタムツール、UIタブ、コンテキストハンドラをインストールできるようになります。.cnw.zip ファイルのドロップに対応した独自の拡張パッケージ規格が用意されており、サードパーティのアドオンフレームワークとしての展開が見込まれます。技術的なアーキテクチャリーク情報から判明している Conway の構成要素は以下の通りです: コンポーネント説明独立 UI インスタンスサイドバー形式で常駐 Webhook エンドポイント外部サービスからのイベント受信ブラウザ操作 Chrome を通じた Web 操作 Claude Code 連携コーディングタスクの自動実行通知システムタスク完了等の通知送信 Extensions .cnw 形式のプラグイン機構既存ツールとの違い現在の Claude Desktop や Claude Code は、いずれもユーザーの入力をトリガーとして動作する対話型ツールです。Conway はこれらとは異なり、外部からのイベント（通知やスケジュール）をトリガーに自律的に動くエージェントとして位置づけられます。 ...

LLMで株式投資戦略を自動生成 — 松尾研のフィードバック設計実験が示す「モデル選択」の重要性

東京大学・松尾研究所の研究グループが、LLM（大規模言語モデル）に株式投資戦略を自動生成・改善させる実験を行い、その結果を人工知能学会金融情報学研究会（SIG-FIN-036）で発表しました。8つの LLM と3種類のフィードバック条件を組み合わせた72パターンの実験から、「フィードバックの設計よりモデル選択のほうが戦略改善に大きく影響する」という知見が得られています。研究の背景 LLM をクオンツ投資（数理モデルに基づく定量的投資手法）に活用する研究は近年急速に増えていますが、「LLM に過去の成績をどう伝えれば戦略をうまく改善できるか」というフィードバック設計の体系的な検証はほとんど行われていませんでした。本研究はこのギャップを埋めるものです。実験フレームワーク研究では、以下のような反復的な戦略改善ループを構築しています。 LLM に初期の投資戦略（Python コード）を生成させる過去データでバックテスト（シミュレーション）を実行するシミュレーション結果をフィードバックとして LLM に提示する LLM が結果を分析し、戦略コードを修正する 2〜4 を繰り返して戦略を改善する対象データ銘柄: TOPIX 500（金融セクターを除く）期間: 2014〜2022年の日次データ特徴量: 株価、出来高、ファンダメンタル指標、マクロ指標など80種類フィードバックの3条件フィードバックに含める情報を2つの観点（情報の範囲と提示形式）で段階的に拡張し、3つの条件を比較しています。条件情報の範囲提示形式条件A 基本的な損益指標のみテキストのみ条件B 基本指標 + 予測精度・リスク構造の指標テキストのみ条件C 基本指標 + 予測精度・リスク構造の指標テキスト + グラフ画像使用モデル（8種・3ファミリー） GPT 系（OpenAI）: GPT-5 を含む3モデル Gemini 系（Google）: Gemini 3 Flash を含む2モデル Claude 系（Anthropic）: Claude 4.5 Sonnet を含む3モデル主要な結果: モデルごとの「性格」が成績を左右実験の最大の発見は、フィードバック条件の違いよりもモデルの違いがパフォーマンスに大きく影響したことです。各モデルファミリーには明確な挙動の傾向が見られました。 Claude 系: 安定的・漸進的な改善 Claude 系モデル（特に Claude 4.5 Sonnet）は、既存の戦略コードの構造を保ちつつ局所的な修正を積み上げる傾向がありました。この「コツコツ型」のアプローチが安定的な改善につながり、最終的なパフォーマンスでも優れた結果を示しています。 ...

Onyx（旧 Danswer）完全ガイド — 無料で使えるオープンソース AI プラットフォーム

Onyx（旧 Danswer）は、社内のドキュメント・アプリ・人材をまとめて繋ぎ、どんな LLM とも連携できるオープンソースの AI プラットフォームです。Community Edition（CE）は MIT ライセンスで完全無料。セルフホストできるため、データを外部に出さずに AI チャットや RAG、エージェント機能を利用できます。 Onyx とは Onyx は企業向け AI アシスタント＆検索プラットフォームです。Slack、GitHub、Confluence、Google Drive など 50 以上のコネクタで社内ナレッジを統合し、自然言語で質問するだけで必要な情報を引き出せます。 GitHub リポジトリ（onyx-dot-app/onyx）のスター数は 22,000 超で、活発に開発が続いています。主な機能チャット＆RAG ハイブリッド検索: ベクトル検索とキーワード検索を組み合わせた高精度な情報検索 Agentic RAG: AI エージェントが検索クエリの生成・評価・再検索を自律的に繰り返し、複数ステップで情報を収集 Deep Research: 多段階のリサーチフローで詳細なレポートを生成エージェント＆ツールカスタムエージェント: 固有の指示・知識・アクションを持つ AI エージェントを構築可能 Web 検索: リアルタイムの Web 情報を取得コード実行: サンドボックス内でコードを実行し、データ分析やグラフ描画が可能画像生成: プロンプトに基づいた画像生成音声モード: テキスト読み上げ＆音声入力に対応コネクタ（50 以上） Slack、GitHub、Confluence、Notion、Google Drive、Jira、Linear など主要サービスと連携。MCP（Model Context Protocol）経由のカスタムコネクタにも対応しています。エディション比較項目 Community Edition (CE) Enterprise Edition (EE) ライセンス MIT（無料）商用ライセンスチャット・RAG・エージェント ✅ ✅ SSO（OIDC / SAML） — ✅ エアギャップ環境 — ✅ サポートコミュニティ専用サポート Cloud 版も提供されており、セルフホストなしで試用できます。ビジネスプランは 1 ユーザーあたり月額 $16〜。 ...

Claude Code のコンテキスト圧縮戦略 — ソースコードから見える5つのアプローチ

Claude Code のソースコードから、会話が長くなったときのコンテキスト圧縮方法が5種類あることが明らかになった。コンテキストウィンドウの管理は AI コーディングエージェントにおける中心課題であり、Anthropic のエンジニアがかなりの時間をかけて取り組んでいる領域だ。 5つの圧縮戦略 1. Microcompact — 古いツール結果の時間ベース消去時間経過に応じて古いツール実行結果（ファイル読み取り、grep 結果、bash 出力など）を自動的に消去する戦略。API 呼び出しを発生させず、キャッシュされたコンテンツをローカルで直接編集する軽量な処理だ。ツール結果は会話中で最も大きなトークンを占めるが、時間が経つにつれて重要度は下がる。この戦略により、最新のやり取りに集中しつつトークン消費を抑えられる。 2. Context Collapse — 会話の部分要約会話の特定の範囲を要約で置き換える戦略。長い対話セクションを圧縮された要約に変換し、セマンティックな意味を保持しながらトークン消費を削減する。全体を要約するのではなく「部分的に」要約するため、直近の文脈はそのまま保持される点がポイントだ。 3. Session Memory — 重要な文脈のファイル抽出重要な情報を別ファイルに永続化する戦略。完了した作業、進行中の作業、関連ファイル、次のステップなどの重要な詳細を抽出し、会話の全履歴をアクティブメモリに保持せずに参照できるようにする。 Claude Code の /compact コマンドを手動で実行した際にも、この仕組みが活用される。要約には以下の情報が保持される: 何が完了したか現在進行中の作業関連するファイル次のステップユーザーの重要なリクエストや制約 4. Full Compact — 履歴全体の要約会話履歴全体を包括的に要約する戦略。コンテキストウィンドウが限界に近づき、大量の対話が蓄積された場合に有用だ。自動圧縮（auto-compact）は、コンテキストウィンドウに対して約33,000トークンのバッファを残すタイミングで発動する。200Kトークンのウィンドウであれば、約167Kトークンを使用した時点がトリガーとなる。連続する自動圧縮の失敗が3回を超えると、そのセッションでの圧縮は無効化される（MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES = 3）。この定数は autoCompact.ts に定義されており、かつて1,279セッションで50回以上の連続失敗（最大3,272回）が発生し、日あたり約250,000回のAPI呼び出しが無駄になっていた問題を解決するために導入された。 5. PTL Truncation（Past Turn Limiting） — 古いメッセージ群の切り捨てトークン圧力が臨界に達した際に、最も古いメッセージ群を切り落とす戦略。最近の文脈を優先し、過去のやり取りを犠牲にする最終手段だ。コンテキスト圧力のカスケードこれらの5つの戦略に加え、ツール結果の割り当て制御（バジェッティング）がカスケードの最初の段階として存在する。各戦略は個別に動作するのではなく、軽量な処理から順に段階的なカスケードとして機能する: ツール結果バジェッティング → Microcompact → Context Collapse → Full Compact（Auto Compact）→ PTL Truncation 軽量な処理から順に適用され、それぞれの段階で何を保持し何を破棄するかの基準が異なる。 ...

Claude Code を Ollama でローカル無料実行する方法

Claude Code がローカル LLM で無料実行できるようになった。Ollama を使えば、API 料金なしで Claude Code のインターフェースを活用できる。背景 Claude Code は Anthropic が提供する CLI ベースの AI コーディングアシスタントだ。通常は Anthropic API を通じて利用するため、API 使用料が発生する。しかし Ollama v0.14.0 以降で Anthropic Messages API 互換のエンドポイントが実装され、ローカル LLM を Claude Code のバックエンドとして使えるようになった。 2026年1月にリリースされた Ollama v0.15 では ollama launch claude コマンドが追加され、セットアップがさらに簡単になっている。セットアップ手順方法1: ollama launch（推奨・v0.15 以降） Ollama v0.15 で追加された ollama launch コマンドを使えば、環境変数の設定なしでワンコマンドで起動できる: 1 ollama launch claude モデルを指定する場合: 1 ollama launch claude --model qwen3-coder 方法2: 環境変数を手動設定（v0.14 以降） 1. Ollama のインストール macOS/Linux の場合は以下のコマンドでインストールできる。macOS では公式サイトのインストーラーも利用可能: ...

MiroFish その後: 3週間で GitHub Star 4.7万超へ — コミュニティの広がりと今後の展望

以前の記事で紹介した AI 予測エンジン「MiroFish」が、公開から約3週間で GitHub Star 4.7万超にまで急成長しています。本記事では、その後の動向とコミュニティの広がりを追います。 3週間での急成長 3月10日時点で約11,000だった Star 数は、3月末時点で 47,000以上に到達しました。約3週間で4倍以上の成長です。 GitHub Trending で世界1位を獲得した直後の注目度に加え、盛大グループ創業者・陳天橋氏からの3,000万元（約6億円）の即決投資が報じられたことで、AI エージェント分野への関心の高さを示すプロジェクトとして広く認知されました。コミュニティの広がり MiroFish のオープンソース公開後、コミュニティによる派生プロジェクトが活発に展開されています。オフライン版フォーク MiroFish-Offline は、Neo4j と Ollama を使ったローカル完結型のフォークです。クラウド API への依存を排除し、プライベートな環境でマルチエージェントシミュレーションを実行できます。企業内のデータを外部に出せないケースなどでの活用が想定されます。デモサイト公式デモサイトが公開されており、ブラウザ上で MiroFish の予測プロセスを体験できます。多言語対応フォーク英語版 README の整備や、コミュニティによる英語フォークも複数登場し、中国語圏以外への普及が進んでいます。群体知能アプローチへの注目 MiroFish が採用する群体知能（Swarm Intelligence）アプローチは、従来の AI 予測と異なる特徴を持っています。従来の予測モデルは統計的パターンや単一モデルの推論に依存しています。一方、MiroFish は数千のエージェントによる社会的シミュレーションを通じて予測を行います。エージェント同士が議論し、説得し、立場を変えるプロセスを経ることで、集団行動や社会的伝播といった創発的パターンを予測に反映できます。このアプローチは、特に世論形成や市場心理のような「人間の集団行動」が結果を左右する領域で有効性が期待されています。今後の注目点 MiroFish の急成長は印象的ですが、今後の展開にはいくつかの注目点があります。予測精度の検証: 実際のイベントに対する予測精度がどの程度か、体系的な評価はまだ少ないスケーラビリティ: OASIS エンジンは100万エージェント対応を謳うが、実運用での性能と品質のバランス LLM コスト: 数千エージェントの同時推論に必要な API コストの最適化ユースケースの深化: 汎用的な「万物を予測」から、特定領域での実用性の実証まとめ MiroFish は、公開からわずか3週間で GitHub Star 4.7万超という驚異的な成長を遂げました。オフライン版フォークやデモサイトの登場など、コミュニティの展開も活発です。群体知能によるマルチエージェント予測というコンセプトは多くの開発者の関心を集めていますが、実用面での検証はこれからです。今後の予測精度の実証やユースケースの深化に注目していきたいプロジェクトです。参考リンク MiroFish GitHub リポジトリ MiroFish-Offline (ローカル版フォーク) MiroFish: The AI Swarm Engine That Simulates the Future 前回の記事: MiroFish — 20歳の学生が10日間の Vibe Coding で作った AI 未来予測エンジン

「値は計算されていた。ただ届いていなかっただけ」— LLMエージェントプロンプトのハードコード問題

TL;DR 自律型トレーディングシステムで、投資目標の進捗に応じてリスクパラメータを動的に調整する機能を実装した。計算ロジックは正しく動いていたが、計算結果がエージェントのプロンプトに届いていなかった。プロンプト内の数値がプレーンテキストでハードコードされていたため、エージェントは常に保守的な固定値に従い続けていた。背景 trader は日本株・ビットコインの自律型トレーディングシステムで、Claude をマルチエージェントとして使い、日次の投資提案を生成する。システムには安全規約があり、エクスポージャー上限（60%）や現金比率下限（30%）などのリスクパラメータが定義されている。投資目標（goal）システムを導入し、目標への進捗ペースに応じてこれらのパラメータを動的に調整する機能を実装した。何が起きたか期待していた動作 1 2 3 goal 評価: behind（目標に遅れている） → AdjustmentProposal: exposure_limit=70%, cash_ratio_min=20% → エージェント: 「エクスポージャー70%以内、現金比率20%以上」で提案作成実際の動作 1 2 3 goal 評価: behind（目標に遅れている） → AdjustmentProposal: exposure_limit=70%, cash_ratio_min=20% → エージェント: 「エクスポージャー60%以内、現金比率30%以上」で提案作成 ← 固定値のまま！ goal の評価は正しく行われ、propose_adjustment() は適切な調整値を返していた。しかしエージェントが参照するプロンプトには、値がハードコードされていた： 1 2 3  - 総エクスポージャー60%以内 - 現金比率30%以上を維持一方、同じプロンプト内の max_position_pct（1取引あたりポジション上限）は既にテンプレート変数化されていた： ...

AI疲れへのアンサー: Claude Code のハーネス機能は本当に必要か

「AI疲れ」という言葉が広がる中、Claude Code のハーネス機能（Skill, Agent, MCP, Memory）は不要であり、シンプルな CLI で十分だという主張が話題になっている。この議論の論点を整理し、実際の開発現場での実用性を考察する。話題の発端 Kai Aoki 氏（@kaixaoki）が X で投稿した「AI疲れしてる各位に贈るアンサー」が注目を集めた（2026年3月時点で 531 いいね、462 ブックマーク、約9.8万表示）。主張は以下の4点: ドキュメントが全て — コードや設定よりもドキュメントが最重要 Skill, Agent, MCP, Memory 全て不要 — CLI で解決可能ハーネス独自機能は全て不要 — 物理マシン/VM で隔離せよ賢いモデルがいずれ全てを解決する — 機能追加より待つべきさらに「特に Claude Code はハーネスを複雑化してロックインし、虚業を生み出しているので Evil」と結論づけている。各論点の検討ドキュメントが全てこれは多くの開発者が同意できる主張だ。CLAUDE.md や README に適切な情報を書いておけば、AI エージェントは文脈を理解して適切に動作する。実際、Claude Code の公式ドキュメントでも「CLAUDE.md に何を書くか」が最も重要な設定項目として紹介されている。ただし、ドキュメントだけでは解決しづらい課題もある。繰り返しのワークフロー自動化や、外部サービスとの連携は、仕組みとして定義した方が効率的なケースがある。 Skill/Agent/MCP/Memory は不要かシンプルな使い方なら不要というのは正しい。1ファイルのバグ修正やコードレビューに Skill や Agent は必要ない。一方、以下のようなケースではこれらの機能が実用的な価値を持つ: Skill: 定型作業（ブログ記事作成、PR レビュー、デプロイ手順）を毎回説明する手間を省く Agent: 並列タスク実行（ファクトチェックと SEO 分析の同時実行など） MCP: 外部 API やデータベースへのアクセスを安全に管理する Memory: プロジェクト固有の慣習やユーザーの好みを会話をまたいで保持する要は「必要な人には必要、不要な人には不要」という当たり前の結論になる。問題は、これらの機能がオプトインであるかどうかだ。Claude Code ではいずれも使わなければ存在しないのと同じであり、強制されるものではない。 ...

Claude Code の Auto Mode から見える AGI への道筋

AGI（Artificial General Intelligence、汎用人工知能）とは、特定のタスクに限定されず、人間のように幅広い知的作業をこなせる AI を指す概念だ。現在の AI は特定領域で高い能力を発揮するが、未知の領域への汎用的な対応力では人間に及ばないとされている。 Claude Code に auto mode が導入された。パーミッションの承認を Claude 自身が判断するこの機能について、「次に来るのは Claude 実行自体の auto mode、つまり AGI だ」という指摘が注目を集めている。開発ツールの自律性の進化と、その先にある可能性を考える。 Auto Mode の本質 2026年3月、Anthropic は Claude Code に auto mode を導入した。公式 X アカウントの発表によると: New in Claude Code: auto mode. Instead of approving every file write and bash command, or skipping permissions entirely, auto mode lets Claude make permission decisions on your behalf. Safeguards check each action before it runs. ...

Claude Subconscious：Claude Code にセッション横断の記憶力を与える Letta AI のオープンソースツール

Claude Code は強力な AI コーディングエージェントだが、セッションをまたいだ記憶の保持には課題があった。Claude Subconscious は、Letta AI が開発したオープンソースのプラグインで、Claude Code にバックグラウンドで動作する永続メモリを追加する。 Claude Subconscious とは Claude Subconscious は、Claude Code のセッションをバックグラウンドで監視し、ユーザーの作業パターンや好み、未完了のタスクを学習・記憶するエージェントだ。次のセッション開始時に、蓄積した記憶をプロンプトに自動注入することで、毎回ゼロからのスタートではなく、文脈を引き継いだ作業が可能になる。主な特徴: セッション横断の記憶: 複数セッションをまたいで作業コンテキストを保持・統合バックグラウンド動作: Claude Code の操作をブロックせず、非同期で動作自動コンテキスト注入: プロンプトの前に関連する記憶やガイダンスを自動挿入コードベースの探索: Read、Grep、Glob ツールを使ってプロジェクトのコードを読み取り、理解を深める完全無料・オープンソース: GitHub リポジトリで公開中仕組み Claude Subconscious は Claude Code のフックシステムを利用して、4 つのタイミングで介入する: SessionStart — エージェントに通知し、レガシーファイルをクリーンアップ UserPromptSubmit — 記憶とメッセージを stdout 経由で注入（10 秒タイムアウト） PreToolUse — ワークフロー中の更新を配信（5 秒タイムアウト） Stop — セッションのトランスクリプトをバックグラウンドエージェントに非同期送信バンドルされたエージェントは 8 つのメモリブロックを管理する: メモリブロック用途 core_directives 役割定義 guidance アクティブセッションのガイダンス user_preferences 学習したコーディングスタイル project_context コードベースの知識 session_patterns 繰り返しの行動パターン pending_items 未完了の作業 self_improvement メモリ進化のガイドライン tool_guidelines ツール使用の指針インストール方法 Claude Code のプラグインシステムを使って 2 コマンドでインストールできる: ...