アダプティブ・シンキング(Claude の思考深度制御)

概要 Anthropic が Claude Code に導入した、タスクの複雑さに応じて思考量(extended thinking のトークン数)を自動調整する仕組み。AMD の AI ディレクターが 7,000 セッションのログ分析で思考深度の 67% 低下を発見し、「サイレント・ダウングレード」として SNS で大きな議論を呼んだ。 発覚の経緯 2026年4月2日、AMD シニア AI ディレクター Stella Laurenzo 氏が GitHub Issue(anthropics/claude-code#42796)を投稿。2026年1〜3月の約 6,852 セッション(234,760 ツールコール、17,871 思考ブロック)を分析した結果: 指標 変更前(1月末〜2月中旬) 変更後(3月8日〜23日) 思考の中央値(文字数) 約 2,200 文字 約 600 文字(67% 減) 思考ブロックの割合 約 30% 約 15% Anthropic の説明 Anthropic は「アダプティブ・シンキング」と「エフォートレベルの変更」の2点を認めた。 アダプティブ・シンキング: タスクの複雑さを判断して思考量を動的に調整する仕組みを導入 エフォートレベルの変更: デフォルトの effort レベルを意図的に下げた ユーザーへの事前告知・変更履歴の明示はなく、「サイレントな仕様変更」として批判された。 対処方法 1. エフォートレベルを最大に設定 1 2 # Claude Code セッション内で実行 /effort max 2. アダプティブ・シンキングを無効化 環境変数を設定することで、常に最大の思考深度を強制できる。 ...

2026年4月13日 · 1 分

Claude Mythos Preview とは?数千件のゼロデイ脆弱性を発見した AI モデルの衝撃

Anthropic が 2026 年 4 月 7 日に発表した Claude Mythos Preview は、同社史上最も高性能な汎用言語モデルでありながら、一般公開が見送られた異例のモデルです。同モデルはサイバーセキュリティ分野で突出した能力を示し、主要 OS やブラウザに潜む数千件のゼロデイ脆弱性(開発者が認識する前に存在する未修正のセキュリティ上の欠陥)を自律的に発見・悪用できることが確認されました。 この発表はセキュリティ業界だけでなく金融業界にも波紋を広げ、米国の財務長官や FRB 議長、ウォール街の CEO たちが緊急招集される事態にまで発展しています。 Claude Mythos Preview のベンチマーク性能 Mythos Preview は、従来の Claude Opus 4.6 を大幅に上回るベンチマーク結果を示しています。SWE-bench Verified では 13 ポイント以上、USAMO 2026 では 55 ポイント以上の向上を記録しました。 評価項目 Mythos Preview Opus 4.6 SWE-bench Verified 93.9% 80.8% USAMO 2026 97.6% 42.3% CyberGym(脆弱性再現) 83.1% 66.6% SWE-bench Pro 77.8% 53.4% Terminal-Bench 2.0 82.0% 65.4% 特にサイバーセキュリティの領域では、「ほぼすべての熟練した人間のセキュリティ研究者を上回る」と Anthropic 自身が述べています。 Mythos Preview が発見したゼロデイ脆弱性 Mythos Preview が内部テストで発見した脆弱性は衝撃的です。 ...

2026年4月12日 · 2 分

エージェントハーネスとメモリのロックイン問題 ― Harrison Chase「Your harness, your memory」を読む

LangChain の創設者 Harrison Chase が 2026年4月11日に公開した記事「Your harness, your memory」を読んだ。AI エージェント開発におけるハーネス(harness)とメモリの密接な関係、そしてクローズドなハーネスがもたらすロックインの危険性を指摘する内容だ。本記事ではその要点を整理し、エージェント開発者が考慮すべきポイントを解説する。 エージェントハーネスとは何か エージェントハーネスとは、LLM がツールやデータソースとやり取りするための「足場」を提供するシステムだ。テストハーネスがテスト実行環境を支える外枠であるように、エージェントハーネスはエージェントの実行環境を支える外枠を指す。Chase は以下のような進化の流れを示している。 RAG チェーン時代(2023年〜): ChatGPT 登場直後、シンプルな検索拡張生成(LangChain) 複雑なフロー時代: モデルの改善に伴い、より複雑なワークフローが可能に(LangGraph) エージェントハーネス時代(現在): モデルの大幅な性能向上により、新しい種類の足場が登場 具体的なエージェントハーネスの例として、Claude Code、Deep Agents、Pi(OpenClaw を駆動)、OpenCode、Codex、Letta Code などが挙げられている。 Chase は「モデルがハーネスの機能を吸収していく」という意見に反論する。2023年に必要だった足場の多くは不要になったが、それに代わる新しい種類の足場が登場している。エージェントは定義上、LLM がツールやデータとやり取りするものであり、その相互作用を仲介するシステムは常に必要だ。Chase はその根拠として、Claude Code のソースコードが51万2000行に及ぶ規模を挙げている。 エージェントハーネスとメモリが切り離せない理由 Chase は Letta の CTO Sarah Wooders のブログ「memory isn’t a plugin (it’s the harness)」を引用し、ハーネスとメモリは不可分だと主張する。 メモリをエージェントハーネスにプラグインしてほしいと頼むのは、運転を車にプラグインしてほしいと頼むようなものだ。コンテキストの管理、すなわちメモリの管理は、エージェントハーネスの中核的な能力であり責任だ。 メモリはコンテキストの一形態に過ぎない。ハーネスが管理するコンテキストには以下が含まれる。 短期メモリ: 会話内のメッセージ、大きなツール呼び出し結果 長期メモリ: セッションをまたぐ記憶(クロスセッションメモリ) 設定ファイル: AGENTS.md や CLAUDE.md のロード方法 スキルメタデータ: エージェントへの提示方法 コンパクション(要約による圧縮): 長い会話履歴を要約して短縮する際、何が残り、何が失われるか これらすべてがハーネスの設計に依存しており、メモリを独立したサービスとして切り離すことは現時点では現実的ではない。 エージェントにおける「メモリ」の実体 Chase の記事では「メモリ」が抽象的に語られているが、その実体は大きく4つの層に分けられる。それぞれの層がなぜハーネスと切り離せないのかを具体的に見ていこう。 第1層: コンテキストウィンドウ内のメッセージ履歴 最も基本的なメモリの実体は、LLM に渡される会話メッセージの配列だ。ユーザーの発言、アシスタントの応答、ツール呼び出しの結果がすべてこの配列に格納される。 ...

2026年4月12日 · 2 分

Anthropic が解説するマルチエージェント調整パターン 5 選

Anthropic が 2026 年 4 月 10 日に公開したブログ記事「Multi-agent coordination patterns: Five approaches and when to use them」では、複数のAIエージェントを協調させるための 5 つのパターンが紹介されています。 それぞれのパターンを整理してみます。 1. Generator-Verifier(生成・検証) 概要: 一方のエージェントが出力を生成し、もう一方のエージェントが明示的な基準に照らして検証します。検証が失敗した場合、フィードバックが生成エージェントに戻り、条件を満たすか最大反復回数に達するまでループします。 向いているケース: コード生成+テスト実行のような、品質が最重要でかつ評価基準を明確に定義できるタスク。 注意点: 検証の質は定義した基準の質に完全に依存します。評価基準の設計を省略すると、「品質管理をしているという幻想」だけが残ってしまいます。 2. Orchestrator-Subagent(オーケストレーター・サブエージェント) 概要: リーダー役のエージェントが作業を計画し、専門化されたサブエージェントに明確な境界付きのタスクを委任します。サブエージェントは作業を実行し、結果をオーケストレーターに返します。オーケストレーターは各結果を統合して最終的なアウトプットを生成します。 向いているケース: セキュリティ・テストカバレッジ・スタイルをそれぞれ別エージェントが担当するコードレビューのように、サブタスクの依存関係が少ない明確なタスク分解ができる場合。 注意点: サブエージェント同士で発見した情報に依存関係が生じると、オーケストレーターが「情報のボトルネック」になります。また、明示的に並列化しない限り、サブエージェントは逐次実行されるためスループットが制限されます。 推奨: Anthropic は「大半のユースケースでまず試すべきパターン」としてこのパターンを位置づけています。最も問題の幅広さをカバーしつつ、調整のオーバーヘッドが最小限です。 3. Agent Teams(エージェントチーム) 概要: コーディネーターがキューからタスクを取得する 永続的な ワーカーエージェントを生成します。ワーカーは複数のステップにわたって自律的に作業し、担当コンポーネントのドメイン知識を蓄積します。 向いているケース: 大規模コードベースのサービス移行のように、エージェントが担当範囲に習熟しながら並列で長期間実行するタスク。 Orchestrator-Subagent との違い: サブエージェントが単発タスクで消えるのに対し、チームワーカーはアサインをまたいで生存し続けるため、ドメイン知識が蓄積される。 注意点: タスク間の独立性が必要で、エージェント同士が中間結果を共有しにくい。タスク時間がばらつく場合、完了検知が難しくなります。 4. Message Bus(メッセージバス) 概要: エージェントが共有ルーターを介してトピックをパブリッシュ・サブスクライブします。ルーターはマッチングメッセージを配信しますが、実行順序はあらかじめ決まっていません。 向いているケース: セキュリティアラートが多段階の調査を動的にトリガーするようなイベント駆動パイプラインで、どのエージェントが関与するかがリアルタイムに決まる場合。 注意点: イベントが複数エージェントを連鎖的にトリガーすると、トレーサビリティが困難になります。ルーターがイベントを誤分類すると、エラーが静かに発生します。 5. Shared State(共有ステート) 概要: 中央コーディネーターを置かず、エージェントが永続ストレージに直接読み書きします。エージェントは他エージェントの発見をリアルタイムで参照しながら協調的な知識を蓄積します。 向いているケース: 一方の調査結果が即座に他方のエージェントの探索方向に影響する、協調型のリサーチタスク。単一障害点がなくなるというメリットもあります。 注意点: 収束条件がないとエージェントが際限なく反応し合い、トークンを無駄に消費します。「時間予算・収束閾値・終了エージェントの指定」のいずれかによる明示的な終了条件が必須です。 ...

2026年4月11日 · 1 分

Claude Managed Agents のアーキテクチャ: Brain / Session / Hands の分離設計

前回の記事では Claude Managed Agents の概要と業界インパクトを紹介した。本記事では、Anthropic のエンジニアリングブログ「Scaling Managed Agents: Decoupling the brain from the hands」に基づき、内部アーキテクチャを掘り下げる。 全体アーキテクチャ Claude Managed Agents は4つのコアコンセプトで構成される。 コンセプト 説明 Agent モデル、システムプロンプト、ツール、MCP サーバー、スキルの定義 Environment コンテナテンプレート(パッケージ、ネットワークアクセス、マウントファイル) Session Agent と Environment を参照して起動される実行インスタンス Events アプリケーションとエージェント間でやり取りされるメッセージ(SSE) これらの背後には、Brain / Session / Hands という3層の分離設計がある。 設計思想: OS の抽象化パターン Anthropic はこのアーキテクチャの設計思想を、OS がハードウェアを抽象化した歴史に重ねている。 1970年代のディスクパックでも現代の SSD でも、read() コマンドは同じように動く。ハードウェアの実装が変わっても、その上の抽象化層(プロセス、ファイル)は安定し続けた。 Managed Agents も同じパターンを採用している。Session、Harness、Sandbox というエージェントのコンポーネントを仮想化し、インターフェースは安定させたまま、内部実装を自由に交換できる構造にした。Anthropic はこれを「メタハーネス」と呼んでいる。 なぜこの設計が必要なのか。ハーネスには「モデルが自力でできないこと」に関する前提が埋め込まれるが、モデルの能力が向上するとその前提が陳腐化する。例えば Claude Sonnet 4.5 では、コンテキスト制限が近づくとタスクを早期終了する「コンテキスト不安(context anxiety)」が見られた。そこでハーネスにコンテキストリセットを追加した。しかし Claude Opus 4.5 ではこの振る舞いが消え、リセット機能は無駄な荷物になった。 ...

2026年4月10日 · 3 分

Claude Managed Agents: Anthropicが本番運用可能なエージェント基盤をパブリックベータで公開

2026年4月8日、Anthropicが「Claude Managed Agents」をパブリックベータとして公開した。AIエージェントの本番運用に必要なインフラをすべてマネージドで提供するサービスで、エージェント構築のコストと期間を劇的に削減する。 Claude Managed Agents とは Claude Managed Agents は、AIエージェントの構築・デプロイ・運用に必要なインフラを一括提供する API スイートだ。開発者はモデル、システムプロンプト、ツール、MCP サーバーを定義するだけで、本番レベルのエージェントを稼働させられる。 提供される主な機能: セキュアなサンドボックス: エージェントの実行環境を安全に分離 長時間実行セッション: 数時間にわたるタスクも途中状態を維持しながら処理 状態管理: コンテキストウィンドウの外に永続的なセッションログを保持 マルチエージェント連携: 複数のエージェントが協調して動作するフリート管理 MCP 統合: HubSpot などの外部サービスと即座に連携可能 スコープ付き権限管理: エージェントごとに適切なアクセス制御を設定 platform.claude.com から利用でき、API 従量課金に加えてセッション時間あたり $0.08 の料金が発生する。 エージェント構築市場へのインパクト この発表が業界で大きな反響を呼んでいるのは、エージェント構築の構造そのものを変える可能性があるためだ。 開発期間の短縮 これまでエージェントを本番運用するには、サンドボックス、状態管理、認証、長時間実行、マルチエージェント協調といったインフラを自前で構築する必要があった。Claude Managed Agents はこれらをすべてマネージドで提供するため、月単位だった開発が日単位に短縮される。 既存プレイヤーへの影響 LangChain は Deep Research エージェントだけで1年かけて4つのアーキテクチャを開発してきた。Manus は6ヶ月で5回のハーネス書き直しを行った。Anthropic はこうした領域をファーストパーティのマネージドサービスとして一気に抽象化した形だ。「Claude を本番で安定稼働させる」ことを売りにしていたエージェントスタートアップにとっては、ビジネスモデルの根本的な見直しを迫られる状況と言える。 AWS のサーバーレス革命との類似 企業が求めているのは「エージェントのインフラを構築すること」ではなく「動くエージェント」そのものだ。AWS がサーバー管理を EC2 で抽象化したのと同じ構造で、Anthropic はエージェント構築という市場そのものを縮小させる可能性がある。 既に本番運用している企業 Anthropic の発表によると、Notion、Rakuten、Asana、Sentry がすでに Claude Managed Agents を本番環境で運用している。公式デモのダッシュボードでは、複数のエージェントがフリートとして稼働しタスクを処理している様子が確認できる。 OpenClaw 遮断との関連 発表の4日前、Anthropic は OpenClaw をはじめとするサードパーティ製ハーネスによるサブスクリプション認証情報の利用をブロックした。消費者向け認証レイヤーの上にサービスを構築することを止め、代わりにファーストパーティのマネージドプラットフォームを提供するという戦略が明確になった。 ...

2026年4月10日 · 1 分

Claude Code

概要 Anthropic が開発する CLI ベースの AI コーディングエージェント。ターミナル上で対話しながらコードの読み書き、ファイル操作、git 操作、テスト実行などを行える。 主な特徴 CLI ネイティブ: ターミナルで直接対話(IDE 拡張版も提供) ツール統合: ファイル読み書き、Bash 実行、Grep/Glob 検索、Web 検索等 CLAUDE.md: プロジェクトごとのルール・設定ファイル(圧縮後も再読み込みされる) サブエージェント: 複雑なタスクを並列エージェントに委任可能 スキル/フック: カスタムワークフローの定義と自動化 コンテキスト管理 5段階の圧縮カスケードでコンテキストウィンドウを管理する: Microcompact → Context Collapse → Session Memory → Full Compact → PTL Truncation 詳細: コンテキスト圧縮 LLM Wiki との関連 Karpathy は Claude Code を LLM Wiki の実行環境として使用。「左画面に Claude Code、右画面に Obsidian」というワークフローを実践。 思考深度のサイレント・ダウングレード問題 2026年4月、AMD のシニア AI ディレクターが約 6,852 セッション分のログ分析で発見した問題。2026年3月8日以降、Claude Code の思考の中央値が約 2,200 文字から約 600 文字(67%減)に低下していた。Anthropic は「アダプティブ・シンキング」による変更を認め、/effort max コマンドで高い思考深度を維持できると説明した。 ...

2026年4月6日 · 2 分

Claude Code のデフォルト設定でトークンを無駄にしていた話

Claude Code を使っていて「なんかコストかかるな…」と思ったことはないでしょうか。以前、デフォルト設定のまま使い続けると推定 2 億 6,400 万トークンもの無駄が発生するという事例が話題になりました。 その後 Claude Code 自体が大幅に改善されましたが、トークン消費を意識した使い方は今でも重要です。本記事では、現在のバージョン(2026年4月時点)で有効な最適化ポイントを整理します。 ツール検索の遅延ロード(Deferred Tools) 以前の Claude Code では、すべてのツール定義がセッション開始時にコンテキストに読み込まれ、大量のトークンを消費していました。ENABLE_TOOL_SEARCH を明示設定することで改善できるという報告もありました。 現在のバージョンでは、この問題はビルトインで解決されています。 ツール定義は「遅延ロード(Deferred Tools)」方式に変わり、ツール名だけがコンテキストに載り、実際のスキーマは必要になった時点で初めてロードされます。ENABLE_TOOL_SEARCH を手動で設定する必要はありません。 プロンプトキャッシュの 5 分 TTL — 今も最大の落とし穴 Claude のプロンプトキャッシュは 5 分で期限切れになる。これは現在も変わっておらず、トークンコストに最も影響する要素だ。 5 分休憩しただけで、会話全体が再処理され、コストが 10 倍以上に跳ね上がることがある。 つまり: 長時間セッションの途中で離席する ちょっと休憩してから作業再開する 別の作業をしてから Claude Code に戻ってくる といった行動がすべて、想定外のコスト増につながる。「休憩明けの最初のメッセージが一番高い」というのは、このキャッシュ再処理が原因だ。 キャッシュを意識した作業フロー 5 分以内に次の操作を行う — キャッシュが維持される 長い離席の前にセッションを終了する — 戻ってきたら /resume で再開した方が、コンテキストが圧縮されて効率的 タスクの区切りで /compact を実行する — 手動でコンテキストを圧縮し、次のキャッシュミス時のコストを下げる コンテキスト自動圧縮を活かす Claude Code はコンテキストウィンドウの上限に近づくと、過去の会話を自動的に圧縮する。この仕組みのおかげで、長時間セッションでも会話が途切れることはない。 ただし、圧縮時にはトークンが消費される。不要にコンテキストを膨らませないことが、結果的にコスト削減になる。 コンテキストを膨らませない工夫 やりがちなこと 改善策 大きなファイルを全行読む 必要な範囲だけ offset / limit 指定で読む ビルドログをそのまま流す エラー時だけ出力を確認する 試行錯誤を同一セッションで続ける 方針が変わったら新しいセッションで仕切り直す CLAUDE.md に大量の指示を詰め込む 必要最小限に保つ(毎ターンのコンテキストに載る) 現在のビルトイン最適化機能 2026年4月時点で Claude Code に組み込まれている主なトークン最適化機能: ...

2026年4月6日 · 1 分

AutoAgent — AIがAIを育てる自己改善エージェントOSSライブラリ

AIエージェントの性能を左右する「ハーネス」を、AI自身が自律的に改善するOSSライブラリ AutoAgent が公開されました。ハーネスとは、システムプロンプト・ツール・オーケストレーションから成るエージェントの構成一式のことです。24時間の自律最適化だけで、SpreadsheetBench と TerminalBench の2つのベンチマークで世界1位を達成しています。 AutoAgent とは AutoAgent は Kevin Gu 氏(Third Layer CTO)が開発したPython製OSSライブラリで、「AIがAIを育てる」仕組みを提供します。 従来、AIエージェントを実用レベルにするには、システムプロンプトの調整、ツールの追加、実行フローの設計といった「ハーネス設計」が不可欠でした。この作業は専門知識を要し、1つのハーネスに何日もかかることがあります。AutoAgent はこのハーネス設計をAI自身に任せることで、人間の手動チューニングを超える精度を実現しました。 GitHub: kevinrgu/autoagent ライセンス: MIT 言語: Python ベンチマーク結果 ベンチマーク スコア 順位 SpreadsheetBench 96.5% 1位 TerminalBench(GPT-5スコア) 55.1% 1位 他のエントリーはすべて人間が手動チューニングしたものです。AutoAgentだけが自律的にこのスコアに到達しました。 仕組み: メタエージェントとタスクエージェント AutoAgent は2つのAIの役割分担で動作します。 メタエージェント(コーチ役) ハーネスを改良することが仕事。タスクエージェントの失敗トレースを読み、プロンプト・ツール・オーケストレーションを書き換えます。 タスクエージェント(選手役) 実際のタスクをこなすことが仕事。メタエージェントが設計したハーネスに従って作業を実行します。 最適化ループ 人間がやることは、AutoAgent の設定ファイル program.md にゴール(成功の定義)を書くだけです。あとはAIが24時間、以下のループを回します: メタエージェントがハーネスを書き換える タスクエージェントがタスクを実行する スコアを測定する 失敗トレースを分析し「なぜ失敗したか」を特定する 改善なら採用、悪化なら元に戻す 1に戻る これを数千の並列サンドボックス(隔離された実行環境)で同時実行します。 なぜAIのほうが上手く改善できるのか — 「モデル共感」 人間はどうしても自分の感覚でAIを設計してしまいます。しかし、AIは人間とは異なる思考回路で動いています。 同じモデル同士(例: Claude × Claude)でペアリングすると、コーチ(メタエージェント)は選手(タスクエージェント)の「失敗パターン」を自分ごととして理解できます。同じ重みを共有しているため、内側のモデルがどう推論するかを正確に把握できるのです。 AutoAgent の開発チームはこれを 「モデル共感(model empathy)」 と呼んでいます。実際に、Claude メタエージェント + Claude タスクエージェントの組み合わせは、Claude メタエージェント + GPT タスクエージェントの組み合わせよりも高い性能を示しました。 ...

2026年4月5日 · 2 分

Anthropic Conway

概要 Anthropic が内部テスト中の常駐型 AI エージェント環境(コードネーム「Conway」)。2026年4月に TestingCatalog がリーク報道で存在を確認した。従来の Claude Desktop / Claude Code が「ユーザーの入力をトリガーとするワンショット型」であるのに対し、Conway は 24 時間バックグラウンドで稼働し続け、外部イベントやスケジュールを起点に自律的にタスクを実行する。 主な特徴 機能 説明 Always-On(常時稼働) ユーザーが不在でもバックグラウンドで継続動作 Webhook 連携 外部サービスからのイベントをトリガーに自動実行 ブラウザ操作 Chrome を通じた Web 上のマルチステップ処理 Claude Code 連携 コーディングタスクの自動化(コードネーム “Epitaxy”) .cnw 拡張機構 .cnw.zip 形式のカスタムツール・UI タブ・コンテキストハンドラ 通知システム タスク完了などのイベント通知 Anthropic エージェント製品との対比 製品 起動方式 主な用途 Claude Desktop ユーザープロンプト 対話型チャット Claude Code ユーザー指示 CLI コーディング支援 Cowork 非同期タスク クラウド上の自律タスク Conway 外部イベント / スケジュール 常駐型自律エージェント 想定ユースケース メール受信時に自動で要約・分類 GitHub Issue 作成をトリガーにした調査・対応 Slack メンション通知への自動応答 定期的なデータ収集・レポート生成 現状 2026年4月時点では Anthropic 内部テスト段階。公式アナウンスは未実施。 ...

2026年4月3日 · 1 分