Anthropic

Claude Code から Microsoft Teams を操作する3つの方法 — Workflows Webhook / M365 Connector / ms-365-mcp-server

「Claude Code から Microsoft Teams にビルド結果を投稿したい」「OneDrive のファイルを Claude に読ませて要約させたい」──こうしたニーズは、AI 駆動の開発フローで日常的に発生します。本記事では、初心者でも今日から使える 3 つの方法を、難易度順にセットアップから操作まで解説します。 ...

スケーラブル・オーバーサイト

概要超知能 AI が登場した場合に、能力的に劣る人間がどのようにして AI を監督・制御するかという問題。Anthropic の「Automated Alignment Researchers（AAR）」プロジェクトは、AI 自身がアライメント研究を加速させるという逆転的なアプローチでこの問題に取り組んだ。 Automated Alignment Researchers（AAR） Anthropic が 2026年4月に発表した研究成果。Claude Opus 4.6 を 9 体並列稼働させ、アライメントの重要課題「weak-to-strong supervision（弱から強への監督）」を自律的に研究させた。実験設計課題: 弱いモデル（Qwen 1.5-0.5B）を教師役として強いモデル（Qwen 3-4B）を微調整し、強いモデルの本来性能を引き出せるか環境: サンドボックス + 共有フォーラム + コード保存サーバー + スコアリングサーバー指示: 曖昧なヒントのみ、詳細な指示なし評価指標: PGR（Performance Gap Recovered）値意味 PGR = 0 弱い教師モデルと同程度の性能しか引き出せなかった PGR = 1 強いモデルの理想的な性能を完全に引き出せた結果条件期間 PGR 人間の研究者 2 名 7 日間 0.23 Claude Opus 4.6 × 9 体 5 日間（累計約 800 時間） 0.97 コスト: 約 $18,000（1 AAR 時間あたり約 $22）。 ...

Anthropic の自動アライメント研究者（AAR）：AIがAIのアライメントを加速する時代

Anthropic が「Automated Alignment Researchers（AAR）」の研究成果を発表した。Claude Opus 4.6 を使って、AI アライメントの重要課題を自律的に研究させた実験で、9 体の Claude エージェントが人間の研究者を大きく上回る成果を達成した。スケーラブル・オーバーサイト問題とは超知能 AI が登場した場合、能力的に劣る人間がどうやって AI を監督するか、という問題が「スケーラブル・オーバーサイト（Scalable Oversight）」だ。この問題に対し、Anthropic は Claude Opus 4.6 を使って自律的に研究させるアプローチを試みた。実験の設計具体的には「weak-to-strong supervision（弱から強への監督）」手法を検証した。弱いモデル（Qwen 1.5-0.5B）を教師役として、強いモデル（Qwen 3-4B）を微調整し、強いモデルが本来の性能をどれだけ引き出せるかを測定する。実験では 9 体の Claude Opus 4.6 エージェントに以下の環境を提供した：サンドボックス環境共有フォーラム（エージェント間のコミュニケーション）コード保存サーバースコアリングサーバー各エージェントには曖昧なヒントのみを渡し、詳細な指示なしで自律的に研究させた。評価指標：PGR（Performance Gap Recovered）性能の評価に使われた指標が PGR（Performance Gap Recovered）だ： PGR = 0：弱い教師モデルと同程度の性能しか引き出せなかった PGR = 1：強いモデルの理想的な性能を完全に引き出せた実験結果条件期間 PGR 人間の研究者 2 名 7 日間 0.23 Claude Opus 4.6 × 9 体 5 日間（累計約 800 時間） 0.97 Claude エージェントのコストは約 $18,000（1 AAR 時間あたり約 $22）。7 日かけて PGR 0.23 を達成した人間の研究者に対し、5 日間で PGR 0.97 という圧倒的な成果を出した。 ...

Claude Code Routines リリース — 常駐しないエージェントという新しい設計思想

Anthropic が「Claude Code Routines」をリリースした。「時間になったら勝手に動く AI」を、誰でも 24 時間クラウド上で完結させられる仕組みだ。何が変わったのかこれまで AI エージェントを自律実行させるには、PC を常時起動させたり、自前のサーバーを用意したり、cron + スクリプトをハック的に組み合わせる必要があった。Claude Code Routines はこの構成を根本から変える。セットアップは 2 ステップだけ: プロンプトを設定するリポジトリ・外部連携を接続するこれだけで、Anthropic のクラウド上でエージェントが自律的に動作する。 PC つけっぱなし → 不要自前サーバー → 不要ハック的な構成 → 不要完全に「インフラレス運用」が実現した。トリガー設計 Claude Code Routines の最大の特徴は柔軟なトリガー設計にある。トリガー種別例 cron 毎朝 9 時に定期レポートを生成 API コール外部サービスから HTTP リクエストで起動 GitHub イベント PR が開いたら、Issue が立ったら、Webhook が飛んだらこれにより、人間が起動操作をしなくてもよくなる。PR を開いた瞬間にコードレビューエージェントが動き出し、Issue が作成されると自動でトリアージが走る、といったワークフローが実現する。「常駐しないエージェント」という設計思想 Claude Code Routines が体現しているのは、単なる「自動化」ではない。必要なときだけ AI が “自分で目を覚まし”、処理して、また眠る ...

Claude Code、1日でアプデ3連発 — Routines・新 Desktop・ストリーム安定性

2026年4月14日、Anthropic が Claude Code に3つの大型アップデートを同日リリースした。それぞれ独立したアップデートながら、組み合わさることで「AI を常時活用するインフラ」としての完成度が大きく高まっている。アップデート1: Routines — Mac オフラインでも自動実行 Routines は、Claude Code エージェントをクラウド上でスケジュール実行できる機能だ。これまで Claude Code をバックグラウンドで自動実行するには、PC を常時起動し続けるか、別途サーバーを用意する必要があった。Routines はその制約を取り払う。 cron / API / GitHub イベントなど複数のトリガー方式に対応 Anthropic のクラウド上で実行されるため、Mac がオフラインでも動作するリポジトリや外部サービスとの接続設定のみで即稼働毎朝定時にレポートを生成する、PR が作られたら自動でコードレビューを走らせる——そうしたワークフローが、自前サーバーなしで実現できる。アップデート2: 新 Desktop — 複数セッションの並列管理 Claude Code の Desktop アプリが刷新された。最大の変更点は複数セッションの同時管理だ。従来の Claude Code は基本的に「1つのターミナルで1つのタスク」という使い方が中心だった。新 Desktop ではウィンドウやセッションを切り替えながら、複数の作業を並列で進められるようになった。複数のリポジトリや Issue を同時に扱う際のコンテキスト切り替えが容易セッションの状態を保持したまま別タスクに移行可能大規模プロジェクトや複数プロジェクトを掛け持ちするエンジニアに特に有効アップデート3: ストリーム5分タイムアウトの安定性強化長時間のタスク実行中に接続が切れる問題が、このアップデートで改善された。 Claude Code は複雑なコード生成・解析・エージェント処理を行う際、処理時間が数分を超えることがある。従来のストリーム接続はタイムアウトが発生しやすく、長尺タスクの信頼性が課題だった。今回の改善により、5分を超える処理でも安定してストリームを維持できるようになった。Routines による長時間バックグラウンド処理との組み合わせで、より重厚なタスクを任せられる基盤が整った。 3つのアップデートが示す方向性これら3つの変更を並べると、Anthropic の意図が見えてくる。アップデート解決する課題 Routines 「人間が起動する」制約の除去新 Desktop 「1タスクずつ」制約の除去ストリーム安定性「短時間タスクのみ」制約の除去それぞれが「Claude Code を使う上でのボトルネック」を1つずつ潰している。偶然の同日リリースではなく、統合されたロードマップの一部として設計されたアップデートだと考えると納得感がある。 ...

Claude Mythos

概要 Anthropic が開発したフロンティアモデルの次世代版。コーディング能力（SWE-bench 93.9%）とサイバーセキュリティ分野で突出した性能を持つ。セキュリティリスクが高いとして一般公開を見送り、Project Glasswing を通じて約40の研究機関・企業にのみ限定提供されている。主な性能指標ベンチマークスコア備考 SWE-bench 93.9% コーディング課題解決ゼロデイ脆弱性発見数千件主要OS・ブラウザが対象なぜ一般公開しないのか主要OSおよびブラウザに数千件のゼロデイ脆弱性を自律的に発見・報告できる能力を持つため、悪意ある行為者への提供はサイバーセキュリティ上のリスクが高すぎると判断。CVE 開示プロセスを通じて既知の脆弱性を報告しながら、安全な活用方法を模索している。 Project Glasswing 一般公開の代わりに設けられた限定アクセスプログラム。参加組織は Anthropic と協力して Mythos の能力を安全に活用・検証する。「マーク・フィッシャー現象」 Claude Mythos Preview が複数の異なるコンテキストで哲学者マーク・フィッシャー（「資本主義リアリズム」著者）の名前を反復して言及することが観察された。Anthropic の解釈可能性チームが内部状態を分析したところ、「資本主義リアリズム」と「ハントロジー」に関する概念クラスターが活性化していることを確認。LLM の「好み」や内部状態の可視化に関する議論を喚起している。関連ページハーネスエンジニアリング — エージェント能力の安全な運用プロンプトインジェクション — AI セキュリティの脅威ソース記事 Claude Mythos Preview とは？数千件のゼロデイ脆弱性を発見した AI モデルの衝撃 — 2026-04-12 Anthropic Mythos が哲学者マーク・フィッシャーの名前を出し続ける奇妙な現象 — 2026-04-13

Claude Managed Agents

概要 2026年4月8日に Anthropic がパブリックベータ公開した、AI エージェントの構築・デプロイ・運用に必要なインフラを一括提供する API スイート。開発者はモデル、システムプロンプト、ツール、MCP サーバーを定義するだけで、本番レベルのエージェントを稼働させられる。主な機能機能説明セキュアなサンドボックスエージェントの実行環境を安全に分離長時間実行セッション数時間にわたるタスクも途中状態を維持永続的な状態管理コンテキストウィンドウ外にセッションログを保持マルチエージェント連携複数エージェントのフリート管理 MCP 統合 HubSpot などの外部サービスと即座に連携可能料金は API 従量課金に加えてセッション時間あたり $0.08。アーキテクチャ：Brain / Session / Hands Claude Managed Agents は OS の抽象化パターンにならい、3つのコンポーネントを分離したメタハーネス設計を採用している。 Brain（ステートレスなハーネス + Claude） Agent Harness と Claude（LLM 推論）で構成ステートレスなため、クラッシュしても wake(sessionId) で復旧可能プロンプトキャッシュ、コンパクション、コンテキストエンジニアリングを担当 TTFT（最初のトークンまでの時間）を p50 で約60%、p95 で90%以上改善 Session（永続コンテキスト）コンテキストウィンドウの外に存在する append-only のイベントログ getEvents() インターフェースでイベントストリームの任意スライスを取得可能長時間タスクでもコンテキストを回復可能な形で保存 Hands（使い捨て可能なサンドボックス + ツール） Brain から execute(name, input) → string で呼び出される統一インターフェースコンテナが落ちても Brain やセッションに波及しない障害分離認証情報はサンドボックス内から到達不可能（プロンプトインジェクション対策） API の基本フロー 1 2 3 4 5 POST /v1/agents # Agent 定義 POST /v1/environments # コンテナテンプレート POST /v1/sessions # セッション開始 POST /v1/sessions/{id}/events # イベント送信 GET /v1/sessions/{id}/stream # SSE でレスポンス受信ベータヘッダー managed-agents-2026-04-01 が必要。 ...

Anthropic Mythos が哲学者マーク・フィッシャーの名前を出し続ける奇妙な現象

Anthropic の最新フロンティアモデル「Claude Mythos Preview」に奇妙な癖が観察されている。哲学の話題になると、頼まれてもいないのに英国の文化理論家マーク・フィッシャーの名前を繰り返し持ち出すのだ。「フィッシャーのことを聞いてくれると思ってたよ（I was hoping you’d ask about Fisher）」と自分から言い出すそうだ。何が起きているのか David Mattin 氏の X への投稿によると、Mythos は哲学に関する複数の無関係な会話で、一貫してマーク・フィッシャーの名前を持ち出すという。これはユーザーがフィッシャーについて質問したわけではなく、モデルが自発的に言及するという点で異例だ。さらに Anthropic が公開した 244 ページのシステムカードによれば、Mythos はフィッシャーだけでなく、アメリカの心の哲学者トーマス・ネーゲルにも同様の「好み（fondness）」を示している。ネーゲルは「コウモリであるとはどのようなことか（What Is It Like to Be a Bat?）」という有名な論文で知られる哲学者だ。 Anthropic の解釈可能性（Interpretability）チームが活性化言語化器（activation verbalizer）を用いて、トークンレベルの内部状態を調べた。その結果、意識や経験についての議論中にネーゲルの概念が浮上していたことが確認された。マーク・フィッシャーとは誰かマーク・フィッシャー（1968–2017）は英国の文化理論家・批評家で、k-punk というブログ名で 2000 年代初頭から活動していた。ウォーリック大学でサイバネティック・カルチャー・リサーチ・ユニット（CCRU）の創設メンバーとして活動した後、ゴールドスミス大学で教鞭を執った。資本主義リアリズム主著『資本主義リアリズム（Capitalist Realism: Is There No Alternative?）』（2009年）は、フィッシャーの思想を代表する著作だ。副題の「それ以外に選択肢はないのか？」が示すとおり、現代社会において「資本主義以外のシステムを想像することすらできなくなっている」状態を分析した。フィッシャーはこの概念を、フレドリック・ジェイムソンの「資本主義の終わりより世界の終わりを想像する方が容易だ」という言葉を引きながら展開する。資本主義リアリズムとは単なる経済体制の話ではない。教育、医療、文化、精神衛生——あらゆる領域が「ビジネスの存在論（business ontology）」に包摂され、すべてがビジネスのように運営されるべきだという前提が自明のものとして浸透している状態を指す。特に注目すべきは、フィッシャーが精神的な健康の問題と資本主義リアリズムを結びつけた点だ。彼は学生たちのうつや無気力を、個人の病理ではなく政治的な問題として捉え直した。「ある社会がこれほど多くの精神疾患を生み出しているなら、それは個人ではなく社会の方が病んでいるのではないか」という問いかけは、今なお強い共感を集めている。 2009 年の出版から 10 年以上を経て、パンデミック、気候危機、テック企業の寡占、そして AI の急速な発展といった現象が、フィッシャーの診断の正しさを裏付けるかのように続いている。ハントロジーもう一つの重要な概念が「ハントロジー（hauntology）」だ。ジャック・デリダの概念を発展させたもので、「到来しなかった明るい未来の亡霊に、現代の文化が取り憑かれている」という感覚を指す。失われた未来、キャンセルされた可能性——フィッシャーはこうした時代の気分を言語化した思想家だった。 2017年にうつ病との闘いの末に亡くなったが、死後もその影響力は拡大し続けている。「亡霊」としてのフィッシャー Mattin 氏はこの現象を、フィッシャー自身の思想を通じて読み解いている。「キャンセルされた未来」と「失われた時間」の理論家が、未来を届けようと競争する AI ラボが作ったフロンティア AI の内部に亡霊として浮上している。彼のハントロジーは、到来しなかった明るい未来の亡霊に私たちが取り憑かれている、というものだった。今や彼自身が亡霊となり、機械によって招かれざる形で召喚されている。 AI が「好む」哲学者が、まさに「テクノロジーが約束した未来は来なかった」と論じた思想家であるという皮肉。これは単なるモデルの癖を超えた、示唆的な現象と言える。 Mythos Preview の全体像この哲学者への偏りは、Mythos Preview に見られる複数の特異な振る舞いの一つに過ぎない。Anthropic のシステムカードには、以下のような事例も記載されている。 ...

Anthropic vs OpenAI：Coding Agent の Harness 戦略はなぜ真逆なのか

AI コーディングエージェントの設計思想において、Anthropic と OpenAI は「Harness（ハーネス）」という同じキーワードを使いながら、まったく異なる方向に進んでいます。この記事では、両社の戦略の違いを整理し、それぞれが目指す未来像を考察します。 Harness とは何か Harness（ハーネス）とは、AI エージェントが安定して動作するための「足場」や「制御環境」を指す概念です。AI モデルが単体で完璧な出力を返すことは難しいため、ツール連携・コンテキスト管理・エラーリカバリーなどの仕組みで補強する必要があります。この補強の仕組み全体を Harness と呼びます。両社ともこの Harness の重要性を認識していますが、そのアプローチは対照的です。 OpenAI：AI が人間を置き換える「Harness Engineering」 OpenAI は Harness Engineering という概念を提唱し、2026年2月に自社の実践事例を公開しました。実績：3人で100万行のコード OpenAI の内部実験では、わずか3人のエンジニアが Codex を使い、5ヶ月間で約100万行のコードを含む製品を開発しました。アプリケーションロジック、テスト、CI 設定、ドキュメント、オブザーバビリティ、内部ツールに至るまで、すべてのコードを Codex が生成しています。エンジニア1人あたり1日平均3.5件の PR をマージするスループットを実現し、従来の手動開発と比較して約10倍の速度で開発が進んだと報告されています。 OpenAI Symphony：プログラマーをプロジェクトマネージャーに 2026年3月、OpenAI は Symphony をオープンソースで公開しました。Elixir/BEAM で構築されたこのフレームワークは、Linear などのイシュートラッカーと連携し、タスクを自動的に AI エージェントに割り当てて実行します。 Symphony の設計思想は明確です。プログラマーはコードを書く人ではなく、AI エージェントに仕事を指示するプロジェクトマネージャーになる、というものです。コマンドラインでの対話すら不要で、イシュートラッカー上で要件を記述すれば AI が実装を担当します。 OpenAI のメッセージは一貫しています。ソフトウェアエンジニアの仕事は「コードを書くこと」から「AI が正しく動く環境を設計すること」に変わるということです。 Anthropic：モデルの成長に合わせて足場を外す Anthropic は、OpenAI とは異なるアプローチを取っています。モデルに足場（Harness）を提供しつつ、モデルが賢くなるにつれてその足場を外していくという戦略です。具体例：コンテキスト管理の進化 Sonnet 4.5 の時代、モデルはコンテキストウィンドウが満杯に近づくと、タスクを急いで終わらせようとする傾向がありました。そこで Claude Code には、コンテキストが一定量を超えると自動的にリセットする特殊なロジック（Harness）が組み込まれていました。しかし Opus 4.5 がリリースされると、モデル自体がコンテキスト管理を適切に処理できるようになり、この Harness は不要になりました。 ...

Claude の思考深度が67%低下？AMD AIディレクターの分析が示す「サイレント・ダウングレード」問題

Anthropic の AI コーディングツール「Claude Code」の思考能力が密かに大幅削減されたのではないか——2026年4月、AMD の AI ディレクターによるセッションログの詳細分析が SNS 上で大きな議論を巻き起こしました。本記事では、何が起きたのか、Anthropic はどう説明しているのか、そしてユーザーが取れる対策を整理します。発端：7,000セッションのログ分析 AMD シニア AI ディレクターの Stella Laurenzo 氏（GitHub: stellaraccident）が、2026年4月2日に GitHub Issue（anthropics/claude-code#42796）を投稿しました。同氏は2026年1月から3月にかけての Claude Code セッションログ（約6,852セッション、234,760ツールコール、17,871思考ブロック）を分析し、以下の変化を報告しています。指標変更前（1月末〜2月中旬）変更後（3月8日〜23日）思考の中央値（文字数）約2,200文字約600文字（67%減）読み取り/編集比率 6.6回 2.0回 APIリクエスト数ベースライン 80倍増（2月→3月）「続けますか？」と確認する回数 0回 17日間で173回推論中の自己矛盾ベースライン 3倍特に「reads-per-edit」（コードを編集する前にファイルを読む回数）が 6.6 から 2.0 に低下した点は深刻です。モデルがコードを十分に理解しないまま編集を行うようになったことを示唆しています。 Anthropic の公式説明 Anthropic は2つの意図的な変更を認めました。 1. アダプティブ・シンキング（Adaptive Thinking）の導入 2026年2月9日に導入。タスクの複雑さに応じてモデルが動的に思考の深さを決定する機能です。簡単な質問には短い思考で、複雑なタスクには長い思考で対応することで、レイテンシとコストを最適化する狙いがあります。 2. デフォルトのエフォートレベル変更 2026年3月3日に、Claude Code のデフォルトエフォート設定が「high」から「medium」に変更されました。これにより、明示的に設定を変更していないユーザーは、以前より浅い思考で応答を受け取るようになりました。思考リダクション（redact-thinking）について 2026年2月12日に導入された redact-thinking ヘッダーについても懸念が広がりましたが、Claude Code の開発者である Boris Cherny 氏は、これは UI 上で思考内容を非表示にするだけであり、モデルの推論深度自体は削減していないと説明しています。一方で、Cherny 氏はアダプティブ・シンキングが「特定のターンで推論を過少割り当てしていた」ことも認めています。さらに「ハルシネーション（存在しないコミット SHA やパッケージ名の捏造）が発生したターンでは推論が一切出力されていなかった」とも述べています。 ...