Claude Code

概要 Anthropic が開発する CLI ベースの AI コーディングエージェント。ターミナル上で対話しながらコードの読み書き、ファイル操作、git 操作、テスト実行などを行える。 主な特徴 CLI ネイティブ: ターミナルで直接対話(IDE 拡張版も提供) ツール統合: ファイル読み書き、Bash 実行、Grep/Glob 検索、Web 検索等 CLAUDE.md: プロジェクトごとのルール・設定ファイル(圧縮後も再読み込みされる) サブエージェント: 複雑なタスクを並列エージェントに委任可能 スキル/フック: カスタムワークフローの定義と自動化 コンテキスト管理 5段階の圧縮カスケードでコンテキストウィンドウを管理する: Microcompact → Context Collapse → Session Memory → Full Compact → PTL Truncation 詳細: コンテキスト圧縮 LLM Wiki との関連 Karpathy は Claude Code を LLM Wiki の実行環境として使用。「左画面に Claude Code、右画面に Obsidian」というワークフローを実践。 関連ページ コンテキスト圧縮 — Claude Code のコンテキスト管理戦略 LLM Wiki パターン — Claude Code を活用した知識管理パターン AutoAgent — Claude Code をメタエージェントとして活用可能 ソース記事 Claude Code のコンテキスト圧縮戦略 — 2026-04-02 Karpathy の LLM Wiki — 2026-04-05

2026年4月6日 · 1 分

AutoAgent — AIがAIを育てる自己改善エージェントOSSライブラリ

AIエージェントの性能を左右する「ハーネス」を、AI自身が自律的に改善するOSSライブラリ AutoAgent が公開されました。ハーネスとは、システムプロンプト・ツール・オーケストレーションから成るエージェントの構成一式のことです。24時間の自律最適化だけで、SpreadsheetBench と TerminalBench の2つのベンチマークで世界1位を達成しています。 AutoAgent とは AutoAgent は Kevin Gu 氏(Third Layer CTO)が開発したPython製OSSライブラリで、「AIがAIを育てる」仕組みを提供します。 従来、AIエージェントを実用レベルにするには、システムプロンプトの調整、ツールの追加、実行フローの設計といった「ハーネス設計」が不可欠でした。この作業は専門知識を要し、1つのハーネスに何日もかかることがあります。AutoAgent はこのハーネス設計をAI自身に任せることで、人間の手動チューニングを超える精度を実現しました。 GitHub: kevinrgu/autoagent ライセンス: MIT 言語: Python ベンチマーク結果 ベンチマーク スコア 順位 SpreadsheetBench 96.5% 1位 TerminalBench(GPT-5スコア) 55.1% 1位 他のエントリーはすべて人間が手動チューニングしたものです。AutoAgentだけが自律的にこのスコアに到達しました。 仕組み: メタエージェントとタスクエージェント AutoAgent は2つのAIの役割分担で動作します。 メタエージェント(コーチ役) ハーネスを改良することが仕事。タスクエージェントの失敗トレースを読み、プロンプト・ツール・オーケストレーションを書き換えます。 タスクエージェント(選手役) 実際のタスクをこなすことが仕事。メタエージェントが設計したハーネスに従って作業を実行します。 最適化ループ 人間がやることは、AutoAgent の設定ファイル program.md にゴール(成功の定義)を書くだけです。あとはAIが24時間、以下のループを回します: メタエージェントがハーネスを書き換える タスクエージェントがタスクを実行する スコアを測定する 失敗トレースを分析し「なぜ失敗したか」を特定する 改善なら採用、悪化なら元に戻す 1に戻る これを数千の並列サンドボックス(隔離された実行環境)で同時実行します。 なぜAIのほうが上手く改善できるのか — 「モデル共感」 人間はどうしても自分の感覚でAIを設計してしまいます。しかし、AIは人間とは異なる思考回路で動いています。 同じモデル同士(例: Claude × Claude)でペアリングすると、コーチ(メタエージェント)は選手(タスクエージェント)の「失敗パターン」を自分ごととして理解できます。同じ重みを共有しているため、内側のモデルがどう推論するかを正確に把握できるのです。 AutoAgent の開発チームはこれを 「モデル共感(model empathy)」 と呼んでいます。実際に、Claude メタエージェント + Claude タスクエージェントの組み合わせは、Claude メタエージェント + GPT タスクエージェントの組み合わせよりも高い性能を示しました。 ...

2026年4月5日 · 2 分

Anthropic Conway とは — 24時間稼働する常駐型AIエージェントの全貌

Anthropic が開発中の常駐型AIエージェント「Conway」のリーク情報が話題になっています。従来のチャットベースのやり取りとは異なり、24時間バックグラウンドで稼働し続けます。いわば「AI従業員」として機能する次世代エージェント環境です。 Conway の概要 Conway は、Anthropic が内部テスト中の常駐型(Always-On)AIエージェント環境です。TestingCatalog が 2026年4月にスクープし、その存在が明らかになりました。ユーザーのシステムやブラウザ上にサイドバーとして常駐し、ユーザーが操作していなくても裏側で継続的にタスクを実行できます。 Claude がこれまで提供してきた「対話型アシスタント」から、「自律的に業務を遂行するエージェント」への進化を示すプロダクトと位置づけられています。 主な特徴 Always-On(常時稼働) Conway の最大の特徴は、ユーザーが待機していなくてもバックグラウンドで常に稼働し続ける点です。従来の Claude のようにプロンプトを送って応答を待つワンショット型ではなく、永続的なプロセスとして動作します。 Webhook 連携 外部アプリケーションからの通知をトリガーに自動実行が可能です。Webhook セクションでは、外部サービスがインスタンスを起動するためのパブリック URL が提供されます。サービスレベルのトグルでトリガーのオン・オフを制御できます。例えば以下のようなユースケースが考えられます: メール受信時に自動で要約・分類 GitHub の Issue 作成をトリガーに調査を開始 Slack のメンション通知をきっかけに対応を自動化 ブラウザ操作と Claude Code 連携 Conway は Chrome ブラウザの操作が可能で、Web上のマルチステップタスクを自律的に処理できます。また、Claude Code(リーク情報では「Epitaxy」というコードネームも言及)との連携も備えており、コーディングタスクも自動化の範囲に含まれます。 独自拡張規格「.cnw」 Anthropic は Extensions エリアを準備しており、ユーザーがカスタムツール、UIタブ、コンテキストハンドラをインストールできるようになります。.cnw.zip ファイルのドロップに対応した独自の拡張パッケージ規格が用意されており、サードパーティのアドオンフレームワークとしての展開が見込まれます。 技術的なアーキテクチャ リーク情報から判明している Conway の構成要素は以下の通りです: コンポーネント 説明 独立 UI インスタンス サイドバー形式で常駐 Webhook エンドポイント 外部サービスからのイベント受信 ブラウザ操作 Chrome を通じた Web 操作 Claude Code 連携 コーディングタスクの自動実行 通知システム タスク完了等の通知送信 Extensions .cnw 形式のプラグイン機構 既存ツールとの違い 現在の Claude Desktop や Claude Code は、いずれもユーザーの入力をトリガーとして動作する対話型ツールです。Conway はこれらとは異なり、外部からのイベント(通知やスケジュール)をトリガーに自律的に動くエージェントとして位置づけられます。 ...

2026年4月3日 · 1 分

LLMで株式投資戦略を自動生成 — 松尾研のフィードバック設計実験が示す「モデル選択」の重要性

東京大学・松尾研究所の研究グループが、LLM(大規模言語モデル)に株式投資戦略を自動生成・改善させる実験を行い、その結果を人工知能学会 金融情報学研究会(SIG-FIN-036)で発表しました。8つの LLM と3種類のフィードバック条件を組み合わせた72パターンの実験から、「フィードバックの設計よりモデル選択のほうが戦略改善に大きく影響する」という知見が得られています。 研究の背景 LLM をクオンツ投資(数理モデルに基づく定量的投資手法)に活用する研究は近年急速に増えていますが、「LLM に過去の成績をどう伝えれば戦略をうまく改善できるか」というフィードバック設計の体系的な検証はほとんど行われていませんでした。本研究はこのギャップを埋めるものです。 実験フレームワーク 研究では、以下のような反復的な戦略改善ループを構築しています。 LLM に初期の投資戦略(Python コード)を生成させる 過去データでバックテスト(シミュレーション)を実行する シミュレーション結果をフィードバックとして LLM に提示する LLM が結果を分析し、戦略コードを修正する 2〜4 を繰り返して戦略を改善する 対象データ 銘柄: TOPIX 500(金融セクターを除く) 期間: 2014〜2022年の日次データ 特徴量: 株価、出来高、ファンダメンタル指標、マクロ指標など80種類 フィードバックの3条件 フィードバックに含める情報を2つの観点(情報の範囲と提示形式)で段階的に拡張し、3つの条件を比較しています。 条件 情報の範囲 提示形式 条件A 基本的な損益指標のみ テキストのみ 条件B 基本指標 + 予測精度・リスク構造の指標 テキストのみ 条件C 基本指標 + 予測精度・リスク構造の指標 テキスト + グラフ画像 使用モデル(8種・3ファミリー) GPT 系(OpenAI): GPT-5 を含む3モデル Gemini 系(Google): Gemini 3 Flash を含む2モデル Claude 系(Anthropic): Claude 4.5 Sonnet を含む3モデル 主要な結果: モデルごとの「性格」が成績を左右 実験の最大の発見は、フィードバック条件の違いよりもモデルの違いがパフォーマンスに大きく影響したことです。各モデルファミリーには明確な挙動の傾向が見られました。 Claude 系: 安定的・漸進的な改善 Claude 系モデル(特に Claude 4.5 Sonnet)は、既存の戦略コードの構造を保ちつつ局所的な修正を積み上げる傾向がありました。この「コツコツ型」のアプローチが安定的な改善につながり、最終的なパフォーマンスでも優れた結果を示しています。 ...

2026年4月3日 · 1 分

Claude Code のコンテキスト圧縮戦略 — ソースコードから見える5つのアプローチ

Claude Code のソースコードから、会話が長くなったときのコンテキスト圧縮方法が5種類あることが明らかになった。コンテキストウィンドウの管理は AI コーディングエージェントにおける中心課題であり、Anthropic のエンジニアがかなりの時間をかけて取り組んでいる領域だ。 5つの圧縮戦略 1. Microcompact — 古いツール結果の時間ベース消去 時間経過に応じて古いツール実行結果(ファイル読み取り、grep 結果、bash 出力など)を自動的に消去する戦略。API 呼び出しを発生させず、キャッシュされたコンテンツをローカルで直接編集する軽量な処理だ。 ツール結果は会話中で最も大きなトークンを占めるが、時間が経つにつれて重要度は下がる。この戦略により、最新のやり取りに集中しつつトークン消費を抑えられる。 2. Context Collapse — 会話の部分要約 会話の特定の範囲を要約で置き換える戦略。長い対話セクションを圧縮された要約に変換し、セマンティックな意味を保持しながらトークン消費を削減する。 全体を要約するのではなく「部分的に」要約するため、直近の文脈はそのまま保持される点がポイントだ。 3. Session Memory — 重要な文脈のファイル抽出 重要な情報を別ファイルに永続化する戦略。完了した作業、進行中の作業、関連ファイル、次のステップなどの重要な詳細を抽出し、会話の全履歴をアクティブメモリに保持せずに参照できるようにする。 Claude Code の /compact コマンドを手動で実行した際にも、この仕組みが活用される。要約には以下の情報が保持される: 何が完了したか 現在進行中の作業 関連するファイル 次のステップ ユーザーの重要なリクエストや制約 4. Full Compact — 履歴全体の要約 会話履歴全体を包括的に要約する戦略。コンテキストウィンドウが限界に近づき、大量の対話が蓄積された場合に有用だ。 自動圧縮(auto-compact)は、コンテキストウィンドウに対して約33,000トークンのバッファを残すタイミングで発動する。200Kトークンのウィンドウであれば、約167Kトークンを使用した時点がトリガーとなる。 連続する自動圧縮の失敗が3回を超えると、そのセッションでの圧縮は無効化される(MAX_CONSECUTIVE_AUTOCOMPACT_FAILURES = 3)。この定数は autoCompact.ts に定義されており、かつて1,279セッションで50回以上の連続失敗(最大3,272回)が発生し、日あたり約250,000回のAPI呼び出しが無駄になっていた問題を解決するために導入された。 5. PTL Truncation(Past Turn Limiting) — 古いメッセージ群の切り捨て トークン圧力が臨界に達した際に、最も古いメッセージ群を切り落とす戦略。最近の文脈を優先し、過去のやり取りを犠牲にする最終手段だ。 コンテキスト圧力のカスケード これらの5つの戦略に加え、ツール結果の割り当て制御(バジェッティング)がカスケードの最初の段階として存在する。各戦略は個別に動作するのではなく、軽量な処理から順に段階的なカスケードとして機能する: ツール結果バジェッティング → Microcompact → Context Collapse → Full Compact(Auto Compact)→ PTL Truncation 軽量な処理から順に適用され、それぞれの段階で何を保持し何を破棄するかの基準が異なる。 ...

2026年4月2日 · 1 分

Claude AI で投資銀行レベルの財務モデルを作成する 12 のプロンプト

AI がゴールドマン・サックスのアナリストと同等の財務モデルを作成できるようになった。Claude を活用した 12 のプロンプトで、年収 15 万ドル(約 2,200 万円)相当の投資銀行業務を代替できるという話題が SNS で広がっている。本記事では、その背景と実際の活用方法を解説する。 背景: ゴールドマン・サックスと Anthropic の提携 2026 年 2 月、ゴールドマン・サックスは Anthropic と提携し、Claude を活用した AI エージェントの開発を開始した。Anthropic のエンジニアがゴールドマン内部に常駐し、会計処理やコンプライアンス業務の自動化エージェントを共同開発している。 ゴールドマンは Claude のコーディング以外の能力、特に大量のデータやドキュメントを解析しながらルールと判断を適用する能力に驚いたと報じられている。同行は、AI を活用してプロセスを高速化し、将来の人員増加を抑制する効率化を見込んでいる。 12 の Claude プロンプトとは SNS で話題になっている「12 の Claude プロンプト」は、投資銀行やプライベートエクイティで使われる 47 の財務モデルを 12 の構造化プロンプトに集約したものだ。各プロンプトは以下の手法で構築されている: フェーズ分割: 段階的にモデルを構築 XML 構造: 入力データを明確にラベル付け 検証ステップ: 計算結果の整合性チェックを内蔵 不確実性フラグ: 推定値と確定値を区別 明示的な出力フォーマット: 投資委員会向けの形式 主要なプロンプトカテゴリ カテゴリ 内容 DCF(割引キャッシュフロー)バリュエーション WACC(加重平均資本コスト)計算、ターミナルバリュー算定、3 フェーズ構築 3 ステートメント財務モデル 損益計算書・貸借対照表・キャッシュフロー計算書の連動モデル、バランスチェック検証付き M&A 希薄化/増厚分析 買収のアクリーション/ディリューション分析 LBO(レバレッジド・バイアウト)モデル ソース & ユース、負債構造、キャッシュスイープ、IRR(内部収益率)/MoM(投資倍率)計算 類似企業比較分析 コンパラブルカンパニー分析、マルチプル算出 Claude の財務サービス機能 Anthropic は 2026 年に Claude の財務サービス向け機能を大幅に拡充した。 ...

2026年3月30日 · 1 分

Anthropic の3エージェント・ハーネス設計: Claude が6時間でフルアプリを自律構築する仕組み

Anthropic の研究者 Prithvi Rajasekaran 氏が、Claude を使ってフルスタックアプリケーションを自律的に構築する「3エージェント・ハーネス」アーキテクチャを公開しました。人間の介入なしに6時間でプレイ可能なゲームエディタを完成させた事例とともに、その設計思想を解説します。 「ハーネス設計」とは何か 「ハーネス(harness)」とは、AI モデルを単体で走らせるのではなく、モデルの外側に構築する制御構造・オーケストレーションロジック全体を指します。具体的には、どのエージェントがどの順番で何を担当するか(役割分離)、エージェント間でどう情報をやり取りするか(契約の交渉)、いつ次に進みいつやり直すか(判定ループ)、何を使ってテストするか(ツール選択)といった設計要素が含まれます。 モデル自体の性能向上とは別の軸で、この制御層をどう設計するかが自律開発の品質を左右します。 背景: AI は自分に甘すぎる このアーキテクチャが生まれた核心的な課題は、AI モデルが自分の出力に対して甘い評価をしがちであるという点です。 「自分が生成した成果物を評価させると、エージェントは自信を持ってそれを称賛する傾向がある —— 人間の目から見れば明らかに品質が低い場合でさえ」(Rajasekaran 氏) この問題は、デザインのような正解/不正解が明確でない領域で特に顕著です。コードにおいても、理論上は正しさを検証できるはずですが、AI エージェントは自分のエラーをスルーしてしまいがちです。 解決策として採用されたのが、GAN(Generative Adversarial Network: 敵対的生成ネットワーク)に着想を得た分離アプローチ —— 「作る役割」と「評価する役割」を完全に分けるという設計です。 3エージェント・アーキテクチャ 最終的に構築されたハーネスは、以下の3つの専門エージェントで構成されるアーキテクチャになっています。 エージェント 役割 Planner 1〜4文のアイデアを完全な製品仕様に展開 Generator 機能ごとにスプリント方式で実装 Evaluator 実行中のアプリを Playwright でテスト・採点 flowchart TD A["ユーザー\n1〜4文のアイデア"] --> B["Planner\n製品仕様に自動展開"] B --> C["スプリント契約の交渉\n終了条件の事前合意"] C --> D["Generator\nReact/Vite/FastAPI で実装"] D --> E["Evaluator\nPlaywright MCP で実アプリテスト"] E -->|"採点: 製品深さ・機能性\nデザイン・コード品質"| F{合格?} F -->|"不合格\nバグ報告 + 改善指示"| D F -->|"合格"| G{次のスプリント?} G -->|"あり"| C G -->|"なし"| H["完成アプリ"] Planner: 仕様の自動展開 初期バージョンでは、生のプロンプトを渡すとモデルがタスクを過小評価する問題がありました。十分に考える前にビルドを開始してしまい、機能の薄いアプリが生成されていたのです。Planner はこの問題を解決するために追加されたエージェントで、短いアイデアを詳細な製品仕様に自動展開します。 ...

2026年3月27日 · 2 分

Claude Code の Auto Mode から見える AGI への道筋

AGI(Artificial General Intelligence、汎用人工知能)とは、特定のタスクに限定されず、人間のように幅広い知的作業をこなせる AI を指す概念だ。現在の AI は特定領域で高い能力を発揮するが、未知の領域への汎用的な対応力では人間に及ばないとされている。 Claude Code に auto mode が導入された。パーミッションの承認を Claude 自身が判断するこの機能について、「次に来るのは Claude 実行自体の auto mode、つまり AGI だ」という指摘が注目を集めている。開発ツールの自律性の進化と、その先にある可能性を考える。 Auto Mode の本質 2026年3月、Anthropic は Claude Code に auto mode を導入した。公式 X アカウントの発表によると: New in Claude Code: auto mode. Instead of approving every file write and bash command, or skipping permissions entirely, auto mode lets Claude make permission decisions on your behalf. Safeguards check each action before it runs. ...

2026年3月26日 · 2 分

Claude Code: dangerously-skip-permissions をやめて auto mode に移行する

Claude Code で長時間タスクを実行する際、許可プロンプトを回避するために --dangerously-skip-permissions を使っていた開発者は少なくないだろう。しかし、auto mode の登場により、安全性を保ちながら同様の利便性を得られるようになった。この記事では、両者の違いと auto mode への移行方法を解説する。 dangerously-skip-permissions の問題 claude --dangerously-skip-permissions は、すべての権限チェックを無効化するフラグだ。ファイルの書き込み、シェルコマンドの実行、外部通信など、あらゆる操作が無条件で許可される。 このフラグには以下のリスクがある: プロンプトインジェクション: 悪意あるファイルを読み込んだ場合、任意のコマンドが無条件で実行される 意図しない破壊操作: rm -rf のような危険なコマンドもチェックなしで実行される 認証情報の漏洩: .env ファイルの内容を外部に送信するような操作も通過する Anthropic の開発者も不使用: 社内でも使用が推奨されていない 鹿野 壮 氏(@tonkotsuboy_com、Ubie)は当時の状況をこう振り返っている: 「男は黙って claude –dangerously-skip-permissions」。そうやって生きてきたけど、Anthropicの開発者が使ってなかったり、プロジェクトでは禁止されたりで、肩身の狭い日々でした auto mode とは auto mode は、dangerously-skip-permissions に代わる安全な選択肢だ。ツールの実行を自動承認しつつ、バックグラウンドで安全性チェックを行う。 両者の比較 dangerously-skip-permissions auto mode 権限チェック 完全無効 バックグラウンドで実行 安全性 なし セーフガード付き プロンプトインジェクション耐性 なし あり 危険なコマンドの実行 無条件で実行 検出してブロック 公式ステータス 推奨されていない リサーチプレビュー(2026年3月時点) auto mode の設定方法 起動時に指定する 1 claude --permission-mode auto settings.json でデフォルトにする settings.json の permissions に "defaultMode": "auto" を指定すれば、毎回のフラグ指定が不要になる: ...

2026年3月25日 · 1 分

Claude Codeで「専門家チーム」を構築する:カスタムエージェントとCoworkの活用法

前回の記事では、NotebookLM を使って「20人の専門家チーム」を構築する方法を紹介しました。この記事では、同じ考え方を Claude Code や Cowork で実現する方法を解説します。 NotebookLM と Claude Code の発想の違い NotebookLM は「入れた資料だけを根拠に回答する」ことが強みです。テーマごとにノートブックを分けることで、各ノートブックが「専門家」として機能します。 Claude Code でも同じアプローチが取れます。さらに、コード実行・ファイル編集・外部ツール連携ができるため、「相談する」だけでなく「調査して、コードを書いて、PR を作成する」ところまで一気通貫で任せられます。 観点 NotebookLM Claude Code 専門家の定義 ノートブック + ソース .claude/agents/ + ナレッジ 知識の投入 PDF / Web / Fast Research MCP / ローカルファイル / WebSearch 同時相談 手動で切替 Cowork / Agent Teams で並行実行 引用元表示 自動リンク ファイルパス・行番号 強み 非技術者でも簡単 コード実行・ファイル編集が可能 方法1: カスタムエージェント(.claude/agents/) 最もシンプルで NotebookLM の「専門家ノート」に直接対応する方法です。 カスタムエージェントの仕組み .claude/agents/ ディレクトリに Markdown ファイルを置くだけで、専門エージェントが定義できます。各ファイルにはそのドメインの専門知識・指示・参照先を書きます。 1 2 3 4 5 .claude/agents/ ├── marketing-expert.md # マーケティング専門家 ├── legal-advisor.md # 法務アドバイザー ├── seo-advisor.md # SEO アドバイザー └── fact-checker.md # ファクトチェッカー エージェント定義ファイルの書き方 Markdown ファイルの先頭に YAML フロントマターでメタ情報を定義し、本文にシステムプロンプトを書きます。詳細は 公式ドキュメント を参照してください。 ...

2026年3月25日 · 3 分