Claude の思考深度が67%低下?AMD AIディレクターの分析が示す「サイレント・ダウングレード」問題

Anthropic の AI コーディングツール「Claude Code」の思考能力が密かに大幅削減されたのではないか——2026年4月、AMD の AI ディレクターによるセッションログの詳細分析が SNS 上で大きな議論を巻き起こしました。本記事では、何が起きたのか、Anthropic はどう説明しているのか、そしてユーザーが取れる対策を整理します。 発端:7,000セッションのログ分析 AMD シニア AI ディレクターの Stella Laurenzo 氏(GitHub: stellaraccident)が、2026年4月2日に GitHub Issue(anthropics/claude-code#42796)を投稿しました。同氏は2026年1月から3月にかけての Claude Code セッションログ(約6,852セッション、234,760ツールコール、17,871思考ブロック)を分析し、以下の変化を報告しています。 指標 変更前(1月末〜2月中旬) 変更後(3月8日〜23日) 思考の中央値(文字数) 約2,200文字 約600文字(67%減) 読み取り/編集比率 6.6回 2.0回 APIリクエスト数 ベースライン 80倍増(2月→3月) 「続けますか?」と確認する回数 0回 17日間で173回 推論中の自己矛盾 ベースライン 3倍 特に「reads-per-edit」(コードを編集する前にファイルを読む回数)が 6.6 から 2.0 に低下した点は深刻です。モデルがコードを十分に理解しないまま編集を行うようになったことを示唆しています。 Anthropic の公式説明 Anthropic は2つの意図的な変更を認めました。 1. アダプティブ・シンキング(Adaptive Thinking)の導入 2026年2月9日に導入。タスクの複雑さに応じてモデルが動的に思考の深さを決定する機能です。簡単な質問には短い思考で、複雑なタスクには長い思考で対応することで、レイテンシとコストを最適化する狙いがあります。 2. デフォルトのエフォートレベル変更 2026年3月3日に、Claude Code のデフォルトエフォート設定が「high」から「medium」に変更されました。これにより、明示的に設定を変更していないユーザーは、以前より浅い思考で応答を受け取るようになりました。 思考リダクション(redact-thinking)について 2026年2月12日に導入された redact-thinking ヘッダーについても懸念が広がりましたが、Claude Code の開発者である Boris Cherny 氏は、これは UI 上で思考内容を非表示にするだけであり、モデルの推論深度自体は削減していないと説明しています。一方で、Cherny 氏はアダプティブ・シンキングが「特定のターンで推論を過少割り当てしていた」ことも認めています。さらに「ハルシネーション(存在しないコミット SHA やパッケージ名の捏造)が発生したターンでは推論が一切出力されていなかった」とも述べています。 ...

2026年4月13日 · 1 分

ClaudeのEQとは?「脳内トレース能力」が変えるAI対話の本質

Claude の EQ(感情知性)の本質は、ユーザーの頭の中の思考を追跡し、まだ言語化されていない意図を汲み取る「脳内トレース能力」にある。本記事では、この能力の仕組みと活用法を解説する。 Claude の EQ は「人当たりの良さ」ではない Claude の EQ(Emotional Quotient:感情知性)の高さが話題になることが増えている。しかし、それは単に「丁寧な応答をする」「共感的な言葉を返す」という表面的な意味ではない。 X(Twitter)で広く共有された投稿が、この本質を的確に表現している。 ClaudeのEQの高さってそういうことなのかとなっている。単に人当たりがいいとかじゃ無くて、脳内トレース能力が高くて、言語化しきれてない部分を勝手に読み解いてくれる。Claudeは対話しながらはじめは雰囲気でしか見えてない完成像に向かって完成させてくタスクにめちゃくちゃ向いてる。 — @millfi_EOS この投稿に対して、以下の引用リポストも共感を集めた。 これは本当にマジで、人間が考えている頭の中の思考を察したりトレースしたりした上で回答を出してくれるので自分の思考トレーニングとして役立っているし、ぼやっとしたイメージを形にしていくのにも向いている — @izutorishima ここで語られている Claude の EQ とは、ユーザーの思考プロセスを推測・追跡し、まだ言語化されていない意図を汲み取る能力のことだ。 「脳内トレース」とは何か 従来の AI アシスタントは、ユーザーが入力した文字列をそのまま処理する。指示が曖昧であれば曖昧な回答が返り、指示が具体的であれば具体的な回答が返る。入力と出力の関係は比較的リニアだった。 Claude の「脳内トレース能力」は、これとは異なるアプローチを取る。 言語化されていない前提を推測する: ユーザーが明示していない背景知識や制約条件を、文脈から読み取る 思考の方向性を予測する: ユーザーが次に何を考えるか、何を必要とするかを先回りして提示する 曖昧な完成像を具体化する: 「なんとなくこういう感じ」という漠然としたイメージから、具体的な成果物を構築する これは、優秀な同僚やメンターが持つ「察する力」に近い。言葉にしなくても意図を汲んでくれる相手との対話は、思考の整理と発展を同時に促進する。 なぜ「雰囲気からの完成」に向いているのか Claude が特に力を発揮するのは、最初から完成像が明確でないタスクだ。 例えば以下のようなケースがある。 設計の初期段階: 「こんな機能が欲しいんだけど…」という曖昧な要望から、アーキテクチャを提案する 文章の推敲: 「もう少しこう…」という感覚的なフィードバックから、適切な表現を見つける 問題の切り分け: 「なんかおかしい」という漠然とした違和感から、原因を特定する アイデアの具体化: 「ぼやっとしたイメージ」を対話を通じて形にしていく これらのタスクは、最初の段階では要件を厳密に定義できない。対話を重ねながら徐々に輪郭を明確にしていく必要がある。Claude の脳内トレース能力は、この反復的な具体化プロセスを加速させる。 思考トレーニングとしての AI 対話 冒頭で引用した izutorishima 氏の指摘で興味深いのは、Claude との対話が「思考トレーニング」として機能するという点だ。 Claude が思考をトレースして返してくれることで、ユーザー自身が以下のような気づきを得られる。 自分の思考の癖や盲点: Claude の解釈と自分の意図のズレから、自分が無意識に省略していた前提に気づく 思考の構造化: 漠然と考えていたことが、Claude の応答を通じて整理される 新しい視点の獲得: 自分の思考をトレースされた上で、別の角度からの提案を受ける これは、壁打ち相手としての AI の価値を示している。単なる質問応答マシンではなく、思考のパートナーとして機能する。 ...

2026年4月13日 · 1 分

アダプティブ・シンキング(Claude の思考深度制御)

概要 Anthropic が Claude Code に導入した、タスクの複雑さに応じて思考量(extended thinking のトークン数)を自動調整する仕組み。AMD の AI ディレクターが 7,000 セッションのログ分析で思考深度の 67% 低下を発見し、「サイレント・ダウングレード」として SNS で大きな議論を呼んだ。 発覚の経緯 2026年4月2日、AMD シニア AI ディレクター Stella Laurenzo 氏が GitHub Issue(anthropics/claude-code#42796)を投稿。2026年1〜3月の約 6,852 セッション(234,760 ツールコール、17,871 思考ブロック)を分析した結果: 指標 変更前(1月末〜2月中旬) 変更後(3月8日〜23日) 思考の中央値(文字数) 約 2,200 文字 約 600 文字(67% 減) 思考ブロックの割合 約 30% 約 15% Anthropic の説明 Anthropic は「アダプティブ・シンキング」と「エフォートレベルの変更」の2点を認めた。 アダプティブ・シンキング: タスクの複雑さを判断して思考量を動的に調整する仕組みを導入 エフォートレベルの変更: デフォルトの effort レベルを意図的に下げた ユーザーへの事前告知・変更履歴の明示はなく、「サイレントな仕様変更」として批判された。 対処方法 1. エフォートレベルを最大に設定 1 2 # Claude Code セッション内で実行 /effort max 2. アダプティブ・シンキングを無効化 環境変数を設定することで、常に最大の思考深度を強制できる。 ...

2026年4月13日 · 1 分

Claude Mythos Preview とは?数千件のゼロデイ脆弱性を発見した AI モデルの衝撃

Anthropic が 2026 年 4 月 7 日に発表した Claude Mythos Preview は、同社史上最も高性能な汎用言語モデルでありながら、一般公開が見送られた異例のモデルです。同モデルはサイバーセキュリティ分野で突出した能力を示し、主要 OS やブラウザに潜む数千件のゼロデイ脆弱性(開発者が認識する前に存在する未修正のセキュリティ上の欠陥)を自律的に発見・悪用できることが確認されました。 この発表はセキュリティ業界だけでなく金融業界にも波紋を広げ、米国の財務長官や FRB 議長、ウォール街の CEO たちが緊急招集される事態にまで発展しています。 Claude Mythos Preview のベンチマーク性能 Mythos Preview は、従来の Claude Opus 4.6 を大幅に上回るベンチマーク結果を示しています。SWE-bench Verified では 13 ポイント以上、USAMO 2026 では 55 ポイント以上の向上を記録しました。 評価項目 Mythos Preview Opus 4.6 SWE-bench Verified 93.9% 80.8% USAMO 2026 97.6% 42.3% CyberGym(脆弱性再現) 83.1% 66.6% SWE-bench Pro 77.8% 53.4% Terminal-Bench 2.0 82.0% 65.4% 特にサイバーセキュリティの領域では、「ほぼすべての熟練した人間のセキュリティ研究者を上回る」と Anthropic 自身が述べています。 Mythos Preview が発見したゼロデイ脆弱性 Mythos Preview が内部テストで発見した脆弱性は衝撃的です。 ...

2026年4月12日 · 2 分

AIモデルは意図的に性能を低下させている? OpenAI・Google・Anthropicに共通するパターン

AIモデルのリリース後、時間が経つにつれてパフォーマンスが落ちた気がする——そんな経験をしたユーザーは少なくないだろう。最近、SNS上でこの「体感」に関する興味深い主張が話題になった。 「性能放血」戦略という仮説 中国のテック系アカウント「墓碑科技(mubeitech)」が2026年4月10日に投稿したツイートは、約21万回以上閲覧され、1,600件以上のいいねを集めた。 その内容はこうだ: OpenAI・Google・Anthropicは同様の戦略を採用している。新モデルのリリース初日には性能が最高(100%)に達し、その後「放血」と呼ぶ数ヶ月間の段階的な低下を経験し、最終的に約60%まで落ちる。この目的は、次世代製品リリース時に「劇的な改善」を強調するためだ。 このパターンを同氏は「放血(bloodletting)」と表現した。意図的に性能を落としておき、次世代モデルの登場時に比較対象を都合よく用意するという戦略的操作だという主張だ。 この主張の背景 同様の「体感」を持つユーザーはこれまでにも多く、特にGPT-4が登場直後より時間が経つにつれ「鈍くなった」「回答が短くなった」と感じるユーザーの声はX(Twitter)やRedditで繰り返し話題になってきた。 一方で、OpenAIは過去にGPT-4モデルへの変更内容を公開し、変化があったことを認めつつも「意図的な品質低下」は否定している。また、2023年に行われたスタンフォード大学の研究(“How Is ChatGPT’s Behavior Changing over Time?")では、GPT-4の一部タスクで時間的な性能変動が確認されたことも報告されている。 なぜこの主張が広がるのか ユーザーの体感との一致: モデルの応答品質の変化はユーザーが実感しやすく、「意図的」という説明が腑に落ちやすい 商業的インセンティブへの不信感: 次世代モデルの販促のために旧モデルを陳腐化させるというシナリオは、ビジネス的に合理的に見える 検証困難性: APIの内部変更は外部からの完全な検証が難しく、陰謀論的な解釈が入り込みやすい 実際のところはどうなのか 「意図的な性能低下」説については、現時点で公開情報による明確な裏付けはない。ただし、以下のような要因で性能変動が起きることは事実だ: モデルの量子化・最適化: コスト削減のためにより軽量な推論方法に移行することで、一部タスクの精度が変化する 安全性フィルタリングの調整: ガイドラインの変更により、出力の傾向が変わることがある プロンプト処理の変更: 内部のシステムプロンプトや前処理ロジックの変更が応答に影響する インフラのスケーリング: 急激なユーザー増加に対応する際の一時的なサービス品質の変化 まとめ 「意図的放血戦略」は現時点では未確認の仮説だが、AIモデルの品質管理と透明性に対するユーザーの関心の高さを示している。実際、リリース初期と数ヶ月後でモデルの挙動が変わることは多くの利用者が実感しており、各社がより詳細な変更履歴を公開することで、こうした不信感を払拭できる余地はあるだろう。 AI企業の透明性とユーザーの信頼構築は、今後ますます重要な課題となっていきそうだ。

2026年4月11日 · 1 分

Claude Managed Agents: Anthropicが本番運用可能なエージェント基盤をパブリックベータで公開

2026年4月8日、Anthropicが「Claude Managed Agents」をパブリックベータとして公開した。AIエージェントの本番運用に必要なインフラをすべてマネージドで提供するサービスで、エージェント構築のコストと期間を劇的に削減する。 Claude Managed Agents とは Claude Managed Agents は、AIエージェントの構築・デプロイ・運用に必要なインフラを一括提供する API スイートだ。開発者はモデル、システムプロンプト、ツール、MCP サーバーを定義するだけで、本番レベルのエージェントを稼働させられる。 提供される主な機能: セキュアなサンドボックス: エージェントの実行環境を安全に分離 長時間実行セッション: 数時間にわたるタスクも途中状態を維持しながら処理 状態管理: コンテキストウィンドウの外に永続的なセッションログを保持 マルチエージェント連携: 複数のエージェントが協調して動作するフリート管理 MCP 統合: HubSpot などの外部サービスと即座に連携可能 スコープ付き権限管理: エージェントごとに適切なアクセス制御を設定 platform.claude.com から利用でき、API 従量課金に加えてセッション時間あたり $0.08 の料金が発生する。 エージェント構築市場へのインパクト この発表が業界で大きな反響を呼んでいるのは、エージェント構築の構造そのものを変える可能性があるためだ。 開発期間の短縮 これまでエージェントを本番運用するには、サンドボックス、状態管理、認証、長時間実行、マルチエージェント協調といったインフラを自前で構築する必要があった。Claude Managed Agents はこれらをすべてマネージドで提供するため、月単位だった開発が日単位に短縮される。 既存プレイヤーへの影響 LangChain は Deep Research エージェントだけで1年かけて4つのアーキテクチャを開発してきた。Manus は6ヶ月で5回のハーネス書き直しを行った。Anthropic はこうした領域をファーストパーティのマネージドサービスとして一気に抽象化した形だ。「Claude を本番で安定稼働させる」ことを売りにしていたエージェントスタートアップにとっては、ビジネスモデルの根本的な見直しを迫られる状況と言える。 AWS のサーバーレス革命との類似 企業が求めているのは「エージェントのインフラを構築すること」ではなく「動くエージェント」そのものだ。AWS がサーバー管理を EC2 で抽象化したのと同じ構造で、Anthropic はエージェント構築という市場そのものを縮小させる可能性がある。 既に本番運用している企業 Anthropic の発表によると、Notion、Rakuten、Asana、Sentry がすでに Claude Managed Agents を本番環境で運用している。公式デモのダッシュボードでは、複数のエージェントがフリートとして稼働しタスクを処理している様子が確認できる。 OpenClaw 遮断との関連 発表の4日前、Anthropic は OpenClaw をはじめとするサードパーティ製ハーネスによるサブスクリプション認証情報の利用をブロックした。消費者向け認証レイヤーの上にサービスを構築することを止め、代わりにファーストパーティのマネージドプラットフォームを提供するという戦略が明確になった。 ...

2026年4月10日 · 1 分

Gemma 4 31B vs Qwen3.5-27B — ローカルLLM最強はどちらか

2026年春、ローカルで動かせる高性能 LLM の選択肢が充実してきた。中でも注目なのが Google の Gemma 4 31B(2026年4月リリース、Apache 2.0)と Alibaba の Qwen3.5-27B(2026年2月リリース)だ。どちらも密(dense)モデルで、Apple Silicon Mac や RTX 4090 クラスの GPU で実用的に動作する。 結論を先に述べると、推論・マルチモーダルなら Gemma 4、コーディング・メモリ効率なら Qwen3.5 が適している。本記事では、その判断根拠を主要な観点から比較する。 基本スペック比較 項目 Gemma 4 31B Qwen3.5-27B パラメータ数 31B 27B アーキテクチャ Dense Transformer(Hybrid Attention) Dense(Gated Delta Net + FFN) コンテキスト長 256K トークン 262K トークン(最大 1M 拡張可) 対応言語 140+ 言語 201 言語 マルチモーダル ビジョン(画像理解・OCR) ビジョン(画像理解) ライセンス Apache 2.0 Apache 2.0 開発元 Google DeepMind Alibaba Qwen 両モデルとも Apache 2.0 ライセンスで、商用利用に制限がない。コンテキスト長はほぼ同等だが、Qwen3.5 は 1M トークンまでの拡張に対応している点で有利だ。 ...

2026年4月7日 · 3 分

AI エージェント

概要 単一の応答ではなく、複数ステップのタスクを自律実行する AI システム。Claude Code、OpenAI Codex、Cursor など複数ツールで実装されている。エージェント間協調、分散実行、メモリ管理が 2026 年の主要トレンド。 主な実装パターン シングルエージェント: 1つの LLM が計画→実行→検証を繰り返す(Claude Code など) マルチエージェント: 複数のエージェントが役割分担して協調(Agent Teams) メタエージェント: エージェントのハーネスを AI 自身が改善(AutoAgent) 品質保証 AI エージェントの出力品質を担保するにはハーネスエンジニアリングが必須。CLAUDE.md(入力層)、Hooks(検証層)、Agent Skills(ワークフロー層)の多層構造で品質を保証する。 エージェント基盤の分類 2026年時点の主要なエージェント基盤は大きく3種類に分類できる。 種別 代表例 特徴 マネージドクラウド型 Claude Managed Agents インフラ不要、スケーラブル、ベンダー依存 ローカル自律型 OpenClaw プライバシー重視、カスタマイズ自由、セルフホスト クラウド連携型 Gemini Agent 特定サービス(Google Workspace 等)に最適化 ハーネスとメモリのロックイン LangChain 創設者 Harrison Chase が指摘する重要な概念。エージェントのメモリ(長期記憶)はハーネスの設計と不可分であり、クローズドなハーネスを使うと以下のリスクが生じる: コンパクション(会話圧縮)のロジックが不透明になる 長期メモリが第三者のサーバーに保存される ハーネス移行時にメモリの移植が困難になる 関連ページ Claude Code — 代表的な AI コーディングエージェント Claude Managed Agents — Anthropic のマネージドエージェント基盤 Gemini Agent — Google Workspace 連携エージェント OpenClaw — ローカル自律型エージェント ハーネスエンジニアリング — エージェント品質保証の設計パターン 自己改善エージェント — エージェントが自律的に改善するパターン MCP — エージェントと外部ツールの接続プロトコル ソース記事 AI エージェント QA 手法 — 2026-03 Claude Code Agent Teams — 2026-03 AutoAgent — 2026-04 Gemini Agentモード:Google Workspaceを自動化するAIエージェント — 2026-04-07 Claude Managed Agents: パブリックベータ公開 — 2026-04-10 Claude Managed Agents のアーキテクチャ — 2026-04-10 Anthropic vs OpenAI:Harness 戦略はなぜ真逆なのか — 2026-04-13 エージェントハーネスとメモリのロックイン問題 — 2026-04-12

2026年4月6日 · 1 分

Ollama

概要 llama.cpp ベースで Mac/Linux/Windows で LLM をローカル実行。モデル管理・メモリ最適化を簡潔に実現。Ollama + Claude Code で無料 AI エージェント環境を構築可能。Kali Linux + MCP との統合でローカルペンテスト環境も構築可能。 関連ページ Claude Code — Ollama と組み合わせて無料環境構築 MCP — Ollama を MCP 経由で利用 ソース記事 Claude Code + Ollama ローカル無料環境 — 2026-03 Kali × Ollama × MCP — 2026-03

2026年4月6日 · 1 分

RAG (Retrieval-Augmented Generation)

概要 最新のドキュメントやナレッジベースをベクトル DB に保存し、クエリ時に関連文書を検索して LLM に供与する手法。LLM の知識カットオフを補い、ハルシネーション低減に効果的。 仕組み ドキュメントをチャンクに分割 Embeddings でベクトル化してベクトル DB に格納 クエリ時に類似ベクトルを検索 検索結果をコンテキストとして LLM に渡す RAG の限界と LLM Wiki Karpathy は RAG を「毎日同じ本を初めて読む人に質問を投げるようなもの」と評し、知識を積み上げる LLM Wiki パターンを提案した。RAG は都度検索、LLM Wiki は事前コンパイル。 アダプティブ検索 RAG(新手法) 従来の RAG は検索戦略が固定されているため、クエリに合わない場合は精度が著しく低下する。モデル自身が検索方法を選択・組み合わせるアダプティブ RAG は、この問題に対応する新手法。 3つの検索戦略 検索戦略 向いているケース キーワード検索 固有名詞・型番・コマンドなど特定語句の検索 意味検索(セマンティック) 概念的な質問、言い換えが多い文書 チャンク全文読み 文脈・前後関係が重要な長文 モデルの推論能力が高いほど検索戦略の判断精度が向上するため、モデル進化と共に RAG 全体の性能が自然にスケールする構造となっている。読み込むテキスト量は従来と同等以下でも回答精度は向上する。 関連ページ LLM Wiki パターン — RAG の限界を超える知識積み上げ型アプローチ AI エージェント — RAG を内部で利用するシステム MemPalace — ベクトル検索による永続メモリシステム ソース記事 Karpathy の LLM Wiki — 2026-04 AIが自分で調べ方を選ぶRAG — モデル推論能力でスケールする新手法 — 2026-03-17

2026年4月6日 · 1 分