ByteDance DeerFlow — オープンソースの SuperAgent 基盤でAIエージェントを自律運用する

ByteDance がオープンソースで公開した AI エージェント基盤「DeerFlow」(Deep Exploration and Efficient Research Flow)が注目を集めている。サブエージェントの自動振り分け、サンドボックスでのコード実行、長期メモリ、Claude Code 連携など、プロダクション運用を見据えた機能が揃っている。 DeerFlow とは DeerFlow は、LangGraph / LangChain をベースに構築されたオープンソースの「SuperAgent ハーネス」。複雑なタスクをサブエージェントに分解し、メモリとサンドボックスを活用しながら自律的に処理する。 2026年2月27日に v2.0 がリリースされ、GitHub Trending で #1 を獲得。v2.0 は v1 とコードを共有しない完全な書き直しで、プロダクション環境でのデプロイに焦点を当てている。 主な機能 サブエージェントの自動振り分け 複雑なタスクを並列のサブエージェントワークフローに分解する。各サブエージェントは隔離されたコンテキストで動作し、スコープされたツールと終了条件を持つ。 サンドボックス実行 タスクはコンテナ化された Docker 環境で実行される。専用のファイルシステムが用意され、入力・作業・出力のディレクトリが分離されている。 /mnt/user-data/uploads/ ← 入力ファイル /mnt/user-data/workspace/ ← 作業ディレクトリ /mnt/user-data/outputs/ ← 最終成果物 3つの実行モードをサポート: ローカル実行 — 開発用 Docker 実行 — 単一サーバーでのプロダクション Kubernetes 実行 — マルチサーバー環境 スキルシステム 機能モジュールは Markdown ファイルとして提供される。リサーチ、レポート生成、スライド作成、Web ページ、画像/動画生成のスキルが組み込まれており、タスクの必要に応じてプログレッシブにロードされる。 長期メモリ セッションをまたいだ永続的なプロファイルを構築できる。ユーザーの好み、ライティングスタイル、蓄積された知識をローカルに保存する。 コンテキスト管理 タスクの要約、中間結果のファイルシステムへのオフロード、長時間セッションでの圧縮された状態管理によって、コンテキストウィンドウを効率的に利用する。 セットアップ Docker での起動(推奨) 1 2 3 4 5 git clone https://github.com/bytedance/deer-flow.git cd deer-flow make config # config.yaml を設定 make docker-init make docker-start http://localhost:2026 でアクセスできる。 ...

2026年3月11日 · 2 分

Claude Code vs Codex:AI コーディングエージェント徹底比較 2026

AI コーディングエージェントの二大巨頭、Anthropic の Claude Code と OpenAI の Codex。どちらを使うべきか迷っている開発者は多いでしょう。Hesam 氏(@Hesamation)が数ヶ月間の実用比較を経て「Claude Code に戻った」という記事が話題になっています。本記事では、両ツールのベンチマーク・アーキテクチャ・実用上の使い分けを整理します。 ベンチマーク比較 SWE-bench Pro(ソフトウェアエンジニアリングタスク) モデル スコア Claude Opus 4.6 59.0% GPT-5.3-Codex 56.8% 複雑なソフトウェアエンジニアリングタスクでは Claude Opus 4.6 がリードしています。 Terminal-Bench 2.0(ターミナル操作タスク) モデル スコア GPT-5.3-Codex 77.3% Claude Opus 4.6 65.4% 一方、CLI 操作や CI/CD 関連のタスクでは Codex が強さを発揮します。 アーキテクチャの違い コンテキストウィンドウ Claude Code: 100万トークン(ベータ) Codex: 40万トークン Claude Code は 2.5 倍のコンテキストウィンドウを持ち、大規模なコードベースの横断的な分析に強みがあります。 実行速度 Codex: Cerebras WSE-3 で 1,000+ トークン/秒 Claude Code: 約 200 トークン/秒(標準推論) 速度面では Codex が圧倒的です。ただし、Claude Code はトークン消費量が 3.2〜4.2 倍多い傾向にあり、同じタスクでもより多くの推論を行っている可能性があります。 ...

2026年3月11日 · 1 分

Claude Code vs OpenClaw — 「どっちを勉強すべき?」に対する責務ベースの選び方

AI コーディングエージェントの選択肢が増えるなか、「Claude Code と OpenClaw、どっちを勉強すべき?」という疑問を抱く人が増えている。AI駆動塾(@L_go_mrk)が両方を実際に触った上での比較記事を公開した。本記事では、この比較を起点に両ツールの位置づけを整理する。 そもそも何が違うのか 一言でまとめると、**Claude Code は「開発」、OpenClaw は「運用・自動化」**のためのツールだ。 観点 Claude Code OpenClaw 開発元 Anthropic(プロプライエタリ) Peter Steinberger(オープンソース) 主な用途 コーディング、PR レビュー、リファクタリング 日常タスク自動化、DevOps、定期ジョブ インターフェース ターミナル CLI メッセージングアプリ(Telegram, Discord, Signal 等) 記憶 セッションごとにリセット(CLAUDE.md で補完) 永続メモリ(日記、TODO リスト、アイデンティティファイル) 料金 サブスクリプション(月額 $20〜)または API 従量課金 無料(接続する LLM API の料金のみ) LLM Claude モデル固定 Claude, DeepSeek, GPT 等を選択可能 セキュリティ Anthropic が管理、安全ガードレール付き ユーザー管理、システム権限を継承 Claude Code が強い領域 Claude Code は SWE-bench で約 80.8% のスコアを達成しており、複雑なコード変更やリファクタリングにおいて高い精度を発揮する。Extended Thinking による段階的な推論が、大規模な変更を安全に実行する鍵になっている。 強みをまとめると: コード品質: Hooks による PostToolUse リンター自動実行、プリコミットチェック PR ワークフロー: ブランチ作成→コミット→PR→レビューの一気通貫 エンタープライズ対応: Team / Enterprise プラン、Code Review 機能 安全性: 破壊的操作に対するガードレール OpenClaw が強い領域 OpenClaw(愛称 “Molty”)は、常駐型の AI エージェントだ。ターミナルで起動して終了する Claude Code と異なり、バックグラウンドで動き続け、cron ジョブやウェブフックでタスクを実行する。 ...

2026年3月11日 · 3 分

Claude Code のスキルを作るなら skill-creator プラグインを使おう

Anthropic が公開した「The Complete Guide to Building Skills for Claude」という 33 ページの PDF ガイドが話題になっています。このガイドをそのまま Claude Code のメモリに読み込ませてスキル構築に活用しようとする人もいますが、実は公式の skill-creator プラグインを使う方がはるかに効率的です。 skill-creator はガイドの内容をすべて反映しているだけでなく、テスト・最適化・トリガー精度改善といった仕組みも組み込まれています。PDF をメモリに入れるとコンテキストウィンドウを圧迫するリスクもあるため、新規スキル作成には skill-creator を導入するのがおすすめです。 Claude Code のスキルとは スキルとは、Claude に特定のタスクの実行方法を教える 指示・スクリプト・リソースのフォルダ です。SKILL.md ファイルに YAML フロントマターと指示を記述するだけで作成できます。 Claude Code は 3 段階の情報ロードシステム(Progressive Disclosure)を採用しています。 起動時: インストール済みスキルの名前と説明文のみをシステムプロンプトに読み込む(スキルあたり約 50〜100 トークン) 判定時: ユーザーの入力に関連するスキルがあるかを判定 実行時: 該当スキルの全内容をロード この仕組みにより、多数のスキルをインストールしてもコンテキストウィンドウを無駄に消費しません。 skill-creator プラグインのインストール skill-creator は Anthropic 公式マーケットプレイスに含まれています。Claude Code 内で以下のコマンドを実行するだけでインストールできます。 1 /plugin install skill-creator@claude-plugins-official インストール後、プラグインを有効化します。 1 /reload-plugins なお、/plugin コマンドで Discover タブを開き、GUI からインストールすることも可能です。プラグイン機能を利用するには Claude Code バージョン 1.0.33 以上 が必要です(claude --version で確認できます)。 ...

2026年3月11日 · 2 分

CLAUDE.md の設定を99%消したら逆にうまくいった話:AI への指示は「哲学」だけ残せ

Claude Code の設定ファイル CLAUDE.md に「こう書け」「これは禁止」「この順番で処理しろ」とルールを追加していったら 300行を超え、AI の出力品質がどんどん落ちていった——そんな経験を経て「99%消した。残したのは、哲学だけ。」という結論に至った話が X で話題になっている。 なぜルールを増やすと AI の性能が落ちるのか コンテキストウィンドウの競合 LLM はコンテキストウィンドウ内のすべての情報を処理する。CLAUDE.md のルールが増えるほど、実際の作業に使える「注意力」が奪われる。コンテキストが埋まるにつれてパフォーマンスが低下するのは、LLM の根本的な特性だ。 指示の上限問題 IFScale ベンチマークの研究によると、フロンティアモデルは 150〜200個の指示 を超えたあたりから選択的注意のバイアスがピークに達し、それ以降は均一に失敗するパターンに収束する。Claude Code のシステムプロンプト自体がすでに約50個の指示を含んでいるため、ユーザーが使える枠は実質100〜150個。200行の詳細なルールを書いた時点で、すでに予算オーバーだ。 指示追従バイアス LLM はプロンプトの 先頭と末尾 の指示に従いやすい傾向がある。中間に埋もれたルールは見落とされがちだ。ルールが増えるほど、重要な指示が中間に埋もれて無視されるリスクが高まる。 具体的に何が起こるか 例えば「見出しは H2 を必ず4つ使え」「セクションは5つ構成にしろ」というルールを設定したとする。すると AI は、本来3セクションで十分な内容でも無理やり5セクションに引き伸ばし、冗長な文章を生成してしまう。 ルールに 従うこと自体が目的化 し、最適な出力を考える余地がなくなる。これは人間の組織でも起こる現象だ。過剰なルールがかえって生産性を下げる。 「哲学だけ残す」アプローチ 細かいルールではなく方針を伝える 悪い例: - 見出しは H2 を4つ使うこと - 各セクションは200〜300文字 - コードブロックには必ず言語指定をつけること - 箇条書きは最大5項目まで 良い例: - 読者が最短で理解できる構成を優先する - 冗長さよりも明確さを重視する Anthropic 公式の推奨 Anthropic の公式ドキュメントでも、CLAUDE.md について以下のように推奨している: 肥大化した CLAUDE.md は、実際の指示を AI に無視させる原因になる Claude がすでに正しくやっていることについては、わざわざルールを書かない 削除できるものは削除し、自動化できるものはフックに変換する Progressive Disclosure パターン すべての情報を CLAUDE.md に詰め込むのではなく、情報の見つけ方 を教える方法が効果的だ。 ...

2026年3月11日 · 3 分

VS Code AI コーディングアシスタントのインストール数推移:GitHub Copilot の急落と競合の台頭

VS Code マーケットプレイスにおける AI コーディングアシスタントの日次インストール数を示すグラフが話題になっている。GitHub Copilot のインストール数が急激に落ち込む「崖」が鮮明に表れており、SaaS 事業者やプロダクトマネージャーにとって示唆に富む内容だ。 グラフが示すもの 「Daily Install Counts of AI Coding Assistants in Visual Studio Code」と題されたグラフには、以下の 3 つの AI コーディングアシスタントの日次インストール数(30日移動平均)が描かれている。 GitHub Copilot(オレンジ):2021年末から着実に成長し、2025年後半には日次 150,000 インストール近くまで到達。しかし 2026年に入って急落し、現在は 60,000 前後まで落ち込んでいる Claude Code(シアン):2025年後半に登場し、直近で急速に伸長。日次 60,000 近くまで上昇 OpenAI Codex(イエロー):同じく直近で伸びを見せているが、Claude Code よりやや控えめ 注目すべきは、GitHub Copilot のインストール数がピークから半分以下に急落している点だ。この「崖」は、競合の台頭と GitHub Copilot 自体の変化の両方が要因と考えられる。 急落の背景 GitHub Copilot の課金モデル変更 GitHub Copilot は 2024年12月に無料ティアを導入し、月 2,000 回のコード補完と 50 回のチャットリクエストという制限付きで提供を開始した。同時に、有料プランの価格体系も複雑化している。 Free:月 2,000 補完 / 50 チャット Pro:$10/月 Pro+:$39/月 Business:$19/ユーザー/月 Enterprise:$39/ユーザー/月 無料ティアの導入は新規ユーザー獲得を狙った施策だが、既存の有料ユーザーが無料枠で十分と判断して解約するケースもあり得る。また、Microsoft は従来の IntelliCode を廃止し、AI 支援を Copilot に一本化する戦略を取っている。 ...

2026年3月11日 · 1 分

Claude Code Review — エージェントチームが PR のバグを狩る新機能

Anthropic が Claude Code の新機能「Code Review」を発表した。PR が開かれると、複数のエージェントがチームとして並列にコードレビューを実行し、人間が見落としがちなバグを検出する。開発者の Boris Cherny 氏(@bcherny)は「数週間使って、自分では気づかなかった本物のバグを何度も見つけてくれた」と報告している。 仕組み PR がオープンされると、Code Review は以下のステップを実行する: エージェントチームの派遣 — 複数のエージェントが並列に動き、それぞれ異なるクラスの問題(ロジックエラー、セキュリティ脆弱性、コード品質など)を探す 検証フェーズ — 候補として検出された問題を実際のコード挙動と照合し、偽陽性をフィルタリングする 深刻度ランキング — 検出された問題を重要度順に並べる レビューコメント投稿 — PR に対してサマリーコメント 1 件と、具体的な問題箇所へのインラインコメントを投稿する レビューの深さは PR の規模と複雑さに応じてスケールする。大きく複雑な変更にはより多くのエージェントが投入される。 検出精度 Anthropic 社内でのテスト結果: PR サイズ 指摘ありの割合 平均指摘数 大規模(1,000行以上) 84% 7.5件 小規模(50行未満) 31% 0.5件 特筆すべきは誤検出率が 1% 未満という点だ。エンジニアが「この指摘は間違い」と判定したケースがほとんどなく、検証フェーズによる偽陽性フィルタリングが効果的に機能していることを示している。 なぜ必要なのか Cherny 氏によれば、Anthropic のエンジニア一人あたりのコード出力は 2026 年に入って 200% 増加した。AI コーディングエージェントによってコード生成が加速する一方で、レビューがボトルネックになっていた。人間のレビュアーが処理できる量には限界があり、AI が書いたコードも人間が書いたコードも、同じ品質基準でレビューする必要がある。 Code Review はこの問題に対する Anthropic 自身の解答だ。まず社内で使い、効果を確認した上で外部に公開している。 利用条件 対象プラン: Team / Enterprise(Research Preview) 料金: トークン使用量に基づく従量課金。PR サイズと複雑さに応じて平均 $15〜25 レビュー時間: 約 20 分 セットアップ: 管理者が GitHub App をインストールし、対象リポジトリを選択。開発者側の追加設定は不要 組織レベルでの月間支出上限、リポジトリ単位の有効化制御、レビュー受け入れ率の分析ダッシュボードも用意されている。 ...

2026年3月10日 · 1 分

Claude Code Review — エージェントチームが PR のバグを狩る新機能

Anthropic が Claude Code の新機能「Code Review」を発表した。PR が開かれると、複数のエージェントがチームとして並列にコードレビューを実行し、人間が見落としがちなバグを検出する。開発者の Boris Cherny 氏(@bcherny)は「数週間使って、自分では気づかなかった本物のバグを何度も見つけてくれた」と報告している。 仕組み PR がオープンされると、Code Review は以下のステップを実行する: エージェントチームの派遣 — 複数のエージェントが並列に動き、それぞれ異なるクラスの問題(ロジックエラー、セキュリティ脆弱性、コード品質など)を探す 検証フェーズ — 候補として検出された問題を実際のコード挙動と照合し、偽陽性をフィルタリングする 深刻度ランキング — 検出された問題を重要度順に並べる レビューコメント投稿 — PR に対してサマリーコメント 1 件と、具体的な問題箇所へのインラインコメントを投稿する レビューの深さは PR の規模と複雑さに応じてスケールする。大きく複雑な変更にはより多くのエージェントが投入される。 検出精度 Anthropic 社内でのテスト結果: PR サイズ 指摘ありの割合 平均指摘数 大規模(1,000行以上) 84% 7.5件 小規模(50行未満) 31% 0.5件 特筆すべきは誤検出率が 1% 未満という点だ。エンジニアが「この指摘は間違い」と判定したケースがほとんどなく、検証フェーズによる偽陽性フィルタリングが効果的に機能していることを示している。 なぜ必要なのか Cherny 氏によれば、Anthropic のエンジニア一人あたりのコード出力は 2026 年に入って 200% 増加した。AI コーディングエージェントによってコード生成が加速する一方で、レビューがボトルネックになっていた。人間のレビュアーが処理できる量には限界があり、AI が書いたコードも人間が書いたコードも、同じ品質基準でレビューする必要がある。 Code Review はこの問題に対する Anthropic 自身の解答だ。まず社内で使い、効果を確認した上で外部に公開している。 利用条件 対象プラン: Team / Enterprise(Research Preview) 料金: トークン使用量に基づく従量課金。PR サイズと複雑さに応じて平均 $15〜25 レビュー時間: 約 20 分 セットアップ: 管理者が GitHub App をインストールし、対象リポジトリを選択。開発者側の追加設定は不要 組織レベルでの月間支出上限、リポジトリ単位の有効化制御、レビュー受け入れ率の分析ダッシュボードも用意されている。 ...

2026年3月10日 · 1 分

Claude Code Skills 構築完全ガイド — Anthropic 公式 33 ページの要点まとめ

Anthropic が公開した「The Complete Guide to Building Skills for Claude」は、Claude Code のスキル機能を本格的に活用するための 33 ページにわたる公式ガイドです。この記事では、ガイドの要点を日本語でまとめます。 Skills とは何か Skills は、Claude に特定のタスクやワークフローを教えるための 再利用可能な指示セット です。フォルダにパッケージ化され、一度作れば Claude.ai、Claude Code、API のすべてで動作します。 従来のように毎回プロンプトで細かく指示する代わりに、Skills を使えば「一度教えて、何度でも使える」ようになります。 Skills のファイル構造 my-skill/ ├── SKILL.md # メインの指示ファイル(必須) ├── scripts/ # 補助スクリプト ├── references/ # 参考資料 └── assets/ # アセットファイル 重要なルール: メインファイルは必ず SKILL.md(大文字小文字を区別) フォルダ名は kebab-case(例: notion-project-setup) README.md は含めない YAML フロントマターの設計 SKILL.md の冒頭に YAML フロントマターを記述します。ここがスキルの「顔」になります。 1 2 3 4 --- name: deploy-checker description: "本番デプロイ前のチェックリストを実行する。デプロイや本番リリースの話題が出たときに使用する" --- description には 何をするか と いつ使うか の 2 つを含めることが重要です。Claude はこのメタデータだけでスキルの使用タイミングを判断します。 ...

2026年3月10日 · 1 分

Claude Codeの「セキュリティ%表示」は対策ではなく"お気持ち表示"? 本当にやるべきセキュリティ設定

Claude Codeでツール実行のたびに「パスワード漏洩リスク: 0%」「悪意あるコード実行リスク: 0%」のようなセキュリティリスクのパーセンテージを表示させるCLAUDE.mdの設定がSNSで話題になった。これに対し、セキュリティエンジニアから「それは対策ではなくお気持ち表示」という指摘が上がり、議論を呼んでいる。 話題になった「パーセンテージ表示」 @wan_line_(ワン@AIのお兄さん)氏が2026年3月9日に投稿したポストでは、CLAUDE.mdに以下のようなルールを記述することが提案されていた: ツール実行のたびに パスワードが外に漏れる可能性: ○% 外部サーバーにデータが送られる可能性: ○% 悪意あるコードが動く可能性: ○% PCの設定が書き換わる可能性: ○% Claude Codeで「yes連打」してしまうユーザー向けに、実行前にリスクを可視化してくれるという趣旨だ。 セキュリティ専門家の反論:「お気持ち表示」 この投稿に対し、@sudachikawaii(シンジ☁Shinji)氏が反論した: セキュリティ屋から言うと、これは「対策」ではなく「お気持ち表示」です。LLMはコードの安全性を静的解析していないので、表示されるパーセンテージに技術的根拠がありません。 「0%」を見てyes押すのは、yes連打と同じです。 指摘のポイントは明快だ: LLMは静的解析エンジンではない — LLMが出すパーセンテージは、コードを構文解析して脆弱性を検出した結果ではなく、「それっぽい数値」を生成しているだけ 偽の安心感を与える — 「0%」という表示を見てユーザーが安心してyesを押すなら、結局yes連打と変わらない 技術的根拠がない — 実際のセキュリティリスク分析には、静的解析ツール(SAST)、依存関係チェック、ネットワーク通信の監視などが必要 Claude Codeに本当に効くセキュリティ対策 Claude Codeには、CLAUDE.mdの「お気持ちルール」よりもはるかに実効性のあるセキュリティ機能が組み込まれている。公式ドキュメントに基づき、本当にやるべき対策を整理する。 1. サンドボックスを有効にする 最も重要な対策。Bashコマンドの実行をOSレベルで隔離し、ファイルシステムやネットワークへのアクセスを制限する。 macOSではSeatbelt、LinuxではBubble Wrapが使用される /sandbox コマンドで有効化 2. denyルールで危険なコマンドをブロック permissions.deny に実行禁止コマンドを明示的に設定する。評価順は deny → ask → allow で、denyが最優先。 1 2 3 4 5 6 7 8 9 { "permissions": { "deny": [ "Bash(command:rm -rf *)", "Bash(command:curl *)", "Bash(command:wget *)" ] } } 3. 機密ファイルへのアクセスを遮断 .env やシークレットファイルへのアクセスをブロックする。 ...

2026年3月10日 · 1 分