Claude Code Review — エージェントチームが PR のバグを狩る新機能

Anthropic が Claude Code の新機能「Code Review」を発表した。PR が開かれると、複数のエージェントがチームとして並列にコードレビューを実行し、人間が見落としがちなバグを検出する。開発者の Boris Cherny 氏(@bcherny)は「数週間使って、自分では気づかなかった本物のバグを何度も見つけてくれた」と報告している。 仕組み PR がオープンされると、Code Review は以下のステップを実行する: エージェントチームの派遣 — 複数のエージェントが並列に動き、それぞれ異なるクラスの問題(ロジックエラー、セキュリティ脆弱性、コード品質など)を探す 検証フェーズ — 候補として検出された問題を実際のコード挙動と照合し、偽陽性をフィルタリングする 深刻度ランキング — 検出された問題を重要度順に並べる レビューコメント投稿 — PR に対してサマリーコメント 1 件と、具体的な問題箇所へのインラインコメントを投稿する レビューの深さは PR の規模と複雑さに応じてスケールする。大きく複雑な変更にはより多くのエージェントが投入される。 検出精度 Anthropic 社内でのテスト結果: PR サイズ 指摘ありの割合 平均指摘数 大規模(1,000行以上) 84% 7.5件 小規模(50行未満) 31% 0.5件 特筆すべきは誤検出率が 1% 未満という点だ。エンジニアが「この指摘は間違い」と判定したケースがほとんどなく、検証フェーズによる偽陽性フィルタリングが効果的に機能していることを示している。 なぜ必要なのか Cherny 氏によれば、Anthropic のエンジニア一人あたりのコード出力は 2026 年に入って 200% 増加した。AI コーディングエージェントによってコード生成が加速する一方で、レビューがボトルネックになっていた。人間のレビュアーが処理できる量には限界があり、AI が書いたコードも人間が書いたコードも、同じ品質基準でレビューする必要がある。 Code Review はこの問題に対する Anthropic 自身の解答だ。まず社内で使い、効果を確認した上で外部に公開している。 利用条件 対象プラン: Team / Enterprise(Research Preview) 料金: トークン使用量に基づく従量課金。PR サイズと複雑さに応じて平均 $15〜25 レビュー時間: 約 20 分 セットアップ: 管理者が GitHub App をインストールし、対象リポジトリを選択。開発者側の追加設定は不要 組織レベルでの月間支出上限、リポジトリ単位の有効化制御、レビュー受け入れ率の分析ダッシュボードも用意されている。 ...

2026年3月10日 · 1 分

Claude Code Skills 構築完全ガイド — Anthropic 公式 33 ページの要点まとめ

Anthropic が公開した「The Complete Guide to Building Skills for Claude」は、Claude Code のスキル機能を本格的に活用するための 33 ページにわたる公式ガイドです。この記事では、ガイドの要点を日本語でまとめます。 Skills とは何か Skills は、Claude に特定のタスクやワークフローを教えるための 再利用可能な指示セット です。フォルダにパッケージ化され、一度作れば Claude.ai、Claude Code、API のすべてで動作します。 従来のように毎回プロンプトで細かく指示する代わりに、Skills を使えば「一度教えて、何度でも使える」ようになります。 Skills のファイル構造 my-skill/ ├── SKILL.md # メインの指示ファイル(必須) ├── scripts/ # 補助スクリプト ├── references/ # 参考資料 └── assets/ # アセットファイル 重要なルール: メインファイルは必ず SKILL.md(大文字小文字を区別) フォルダ名は kebab-case(例: notion-project-setup) README.md は含めない YAML フロントマターの設計 SKILL.md の冒頭に YAML フロントマターを記述します。ここがスキルの「顔」になります。 1 2 3 4 --- name: deploy-checker description: "本番デプロイ前のチェックリストを実行する。デプロイや本番リリースの話題が出たときに使用する" --- description には 何をするか と いつ使うか の 2 つを含めることが重要です。Claude はこのメタデータだけでスキルの使用タイミングを判断します。 ...

2026年3月10日 · 1 分

Claude Codeの「セキュリティ%表示」は対策ではなく"お気持ち表示"? 本当にやるべきセキュリティ設定

Claude Codeでツール実行のたびに「パスワード漏洩リスク: 0%」「悪意あるコード実行リスク: 0%」のようなセキュリティリスクのパーセンテージを表示させるCLAUDE.mdの設定がSNSで話題になった。これに対し、セキュリティエンジニアから「それは対策ではなくお気持ち表示」という指摘が上がり、議論を呼んでいる。 話題になった「パーセンテージ表示」 @wan_line_(ワン@AIのお兄さん)氏が2026年3月9日に投稿したポストでは、CLAUDE.mdに以下のようなルールを記述することが提案されていた: ツール実行のたびに パスワードが外に漏れる可能性: ○% 外部サーバーにデータが送られる可能性: ○% 悪意あるコードが動く可能性: ○% PCの設定が書き換わる可能性: ○% Claude Codeで「yes連打」してしまうユーザー向けに、実行前にリスクを可視化してくれるという趣旨だ。 セキュリティ専門家の反論:「お気持ち表示」 この投稿に対し、@sudachikawaii(シンジ☁Shinji)氏が反論した: セキュリティ屋から言うと、これは「対策」ではなく「お気持ち表示」です。LLMはコードの安全性を静的解析していないので、表示されるパーセンテージに技術的根拠がありません。 「0%」を見てyes押すのは、yes連打と同じです。 指摘のポイントは明快だ: LLMは静的解析エンジンではない — LLMが出すパーセンテージは、コードを構文解析して脆弱性を検出した結果ではなく、「それっぽい数値」を生成しているだけ 偽の安心感を与える — 「0%」という表示を見てユーザーが安心してyesを押すなら、結局yes連打と変わらない 技術的根拠がない — 実際のセキュリティリスク分析には、静的解析ツール(SAST)、依存関係チェック、ネットワーク通信の監視などが必要 Claude Codeに本当に効くセキュリティ対策 Claude Codeには、CLAUDE.mdの「お気持ちルール」よりもはるかに実効性のあるセキュリティ機能が組み込まれている。公式ドキュメントに基づき、本当にやるべき対策を整理する。 1. サンドボックスを有効にする 最も重要な対策。Bashコマンドの実行をOSレベルで隔離し、ファイルシステムやネットワークへのアクセスを制限する。 macOSではSeatbelt、LinuxではBubble Wrapが使用される /sandbox コマンドで有効化 2. denyルールで危険なコマンドをブロック permissions.deny に実行禁止コマンドを明示的に設定する。評価順は deny → ask → allow で、denyが最優先。 1 2 3 4 5 6 7 8 9 { "permissions": { "deny": [ "Bash(command:rm -rf *)", "Bash(command:curl *)", "Bash(command:wget *)" ] } } 3. 機密ファイルへのアクセスを遮断 .env やシークレットファイルへのアクセスをブロックする。 ...

2026年3月10日 · 1 分

Claude Code時代の仕様書の役割 — ゼロトピック #337 から考える仕様駆動開発

ゼロトピック(Zero Topic)の #337「Claude Code時代の仕様書の役割」 が話題になっている。10X の矢本氏が、生成 AI が開発プロセスに与える影響と、仕様書の役割がどう変わるかを整理した回だ。 バイブコーディングの限界と仕様駆動開発 Claude Code のようなAIコーディングエージェントの登場で、コード生成速度は飛躍的に向上した。しかし「バイブコーディング」— AI に任せて探索的にコードを生成するアプローチ — には問題がある。 検証負債の蓄積: AI の生成速度が人間の理解・検証速度を上回る 意図不明なコード増殖: 内部構造を精査せず先に進み、誰も理解していない領域が広がる デバッグ困難化: コードの意図が不明では根本原因の特定が難しい こうした課題に対する解が 仕様駆動開発(Spec-Driven Development: SDD) だ。Thoughtworks Technology Radar Vol.32(2025年4月)で Trial に採用されたこの手法は、「仕様を先に定義し、その仕様に基づいて AI にコードを生成させる」という原則に立つ。 仕様書の役割の変化 従来の設計書は人間同士のコミュニケーションツールだった。AI との協働では「AI への指示書」としての側面が加わる。 SDD における仕様書の構成は、Kiro が提唱する3層モデルが分かりやすい: ファイル 役割 requirements.md ユーザーストーリーと受け入れ基準 design.md アーキテクチャ、シーケンス、設計上の注意 tasks.md 実装計画とタスク分解 重要なポイントは、仕様は 「唯一の情報源(Single Source of Truth)」 として機能し、プロセス駆動はルールブック(プロセスルール)が別途担当するという区別だ。 Claude Code での実践 基礎レベル: CLAUDE.md + ステアリングファイル CLAUDE.md に制約・規約・コンテキストを定義 .steering/ 配下に作業バッチフォルダを作成 要件定義書・設計書・タスクリストを生成・保存 タスクに沿ってコード生成・テスト実施 応用レベル: カスタムコマンドの活用 2026年1月に plansDirectory 設定が追加され、/plan モードで作成した計画書を Git 管理できるようになった。さらにカスタムコマンドを使えば、ドメイン知識を埋め込んだ独自のワークフローを構築できる。 ...

2026年3月10日 · 1 分

freee MCP × Claude Code で確定申告の仕訳1,428件を20分で終わらせた話

minicoohei 氏(@minicoohei)が、freee の公式 MCP サーバーと Claude Code を組み合わせて確定申告の仕訳1,428件をわずか20分で完了させた事例を公開した。手作業なら4〜5時間かかる Amex のクレジットカード明細の仕訳登録を、AI が自動化した。 ワークフローの概要 Amex の取引明細(1,428件)を入力データとして用意 — 通常の手作業では1件ずつ勘定科目を判断して登録する必要がある AI が70以上の分類ルールを自動生成 — 取引内容のパターンを分析し、勘定科目の振り分けルールを構築する 対話的なルール調整 — 人間との会話を通じてルールを精緻化する。税務リスクのある取引を事前に特定し、適切な処理方法を提案する 並列バッチ処理で一括登録 — freee API 経由で全件をエラーゼロで登録する freee MCP とは freee は公式の MCP サーバー(freee-mcp)を OSS として公開している。会計・人事労務・請求書・勤怠・販売の5領域にわたる API を、AI エージェントから操作可能にするインターフェースだ。 Claude Code や Claude Desktop から接続すると、「この請求書を発行して」「今月の経費を集計して」といった自然言語の指示で freee の業務を実行できる。 なぜ効果的なのか 従来の会計ソフトの自動仕訳機能は、事前に設定したルールに基づく単純なパターンマッチングだった。Claude Code を使うアプローチには以下の利点がある: 文脈理解による分類精度 — 取引先名や摘要の自然言語を理解して勘定科目を判断する。「AWS」なら通信費、「タクシー」なら旅費交通費、といった判断を人間と同等の精度で行える 対話による例外処理 — 判断に迷うケースを人間に確認し、その回答を以降のルールに反映する バッチ処理の効率 — MCP 経由で freee API を直接操作するため、GUI での手作業が不要 実務での注意点 freee MCP を Claude Code と組み合わせる場合、いくつかの実務的な考慮点がある: ...

2026年3月10日 · 1 分

Karpathy の autoresearch — 寝ている間にAIが100回実験して朝にはモデルが賢くなっている世界

Andrej Karpathy が公開した autoresearch は、AI エージェントが自律的に ML 実験を繰り返すツールだ。寝ている間に AI が 100 回実験し、朝起きたらモデルが賢くなっている——そんな研究スタイルを 630 行の Python コードで実現する。 autoresearch とは nanochat(軽量 LLM 学習コア)をシングル GPU・1 ファイルに凝縮し、AI エージェントが自律ループで学習コードを改善していく仕組み。 基本構造はシンプル: 人間が .md ファイル(プロンプト)を設計する AI エージェントが .py(学習コード)を自律的に改善する 各実験は ちょうど 5 分間 のトレーニングで構成され、1 時間あたり約 12 回、一晩で約 100 回の実験が自動で回る。 人間: program.md を設計(研究の方針・制約を定義) ↓ AI エージェント: 学習コードを修正 ↓ 5分間のトレーニング実行 ↓ 結果を評価(validation loss) ↓ 改善されていれば git commit → 次のイテレーションへ 技術的な特徴 630 行のミニマル設計 autoresearch の核心は「小さく始めて、エージェントに任せる」という哲学にある。 シングル GPU で完結(マルチ GPU 不要) ニューラルネットワークのアーキテクチャ、オプティマイザ、ハイパーパラメータすべてを AI が調整 git feature ブランチ上で動作し、改善があれば自動コミット MIT ライセンスで公開 「コードを書く」のではなく「プログラムをプログラムする」 Karpathy が強調するのは、研究者が Python ファイルを直接触るのではなく、Markdown でエージェントへの指示を設計するというパラダイムシフトだ。 ...

2026年3月10日 · 1 分

MiroFish — 20歳の学生が10日間の Vibe Coding で作った AI 未来予測エンジンが GitHub Trending 1位に

20歳の中国の大学4年生・郭航江(Guo Hangjiang)氏が、わずか10日間の Vibe Coding で開発した OSS「MiroFish」が GitHub Trending で3日連続1位を獲得し、Star 数は約 11,000 を超えて急増中です。さらに、盛大グループ創業者の陳天橋氏がデモを見て24時間以内に3,000万元(約6.9億円)の即決投資を行ったと報じられています。 MiroFish とは MiroFish は、マルチエージェント技術を活用した次世代の AI 予測エンジンです。ニュース・政策・金融データなどのテキストを投入すると、AI が数千の人格を持つエージェントを生成し、エージェント同士が相互作用することで未来の社会・市場の動きをシミュレートします。 公式の説明では「A Simple and Universal Swarm Intelligence Engine, Predicting Anything(簡潔で汎用的な群体知能エンジン、万物を予測)」とされています。 仕組み MiroFish の動作は以下のステップで構成されます。 シード情報の抽出 — ニュース速報、政策草案、金融シグナルなどの現実世界のデータを取り込む デジタルワールドの構築 — 取り込んだ情報から高忠実度な並行デジタル世界を自動構築 エージェントの生成 — 独立した人格、長期記憶、行動ロジックを持つ数千〜数万のエージェントを生成 社会進化シミュレーション — エージェント同士が自由に相互作用し、社会的進化を遂げる 変数注入と予測 — ユーザーが動的に変数を注入し、未来がどう展開するかの精密なシミュレーションを実行 想定される活用シナリオ 金融意思決定支援 — 市場動向の予測と投資判断 政策・世論予測 — 政策変更がもたらす社会的影響の分析 PR 危機シミュレーション — 企業の危機管理対応の事前検証 マーケティング戦略テスト — キャンペーン効果の事前予測 ストーリー・フィクション推演 — 物語の展開シミュレーション 学術研究支援 — 社会科学的仮説の検証 Vibe Coding で10日間 注目すべきは、MiroFish が Claude Code などの AI コーディングツールを活用した「Vibe Coding」で開発されたという点です。Vibe Coding とは、AI エージェントと対話しながら直感的にコードを生成していく開発手法で、従来の開発と比較して大幅な時間短縮が可能です。 ...

2026年3月10日 · 2 分

OpenClaw × Claude Code セットアップガイド — AI エージェントチームを構築する2つのアプローチ

OpenClaw と Claude Code を組み合わせることで、AI エージェントチームの構築・管理を効率化できます。本記事では、2つの主要な連携アプローチとそのセットアップ方法を解説します。 アプローチ1: Claude Code のスキルで OpenClaw を管理する Claude Code のスキル機能(.claude/skills/ に配置する Markdown ファイル)を使い、OpenClaw のエージェント作成・設定管理を標準化する方法です。 なぜスキルで管理するのか 複数の AI エージェントを運用していると、以下の問題が発生します: モデルやコンテキストの違いによる設定の不統一 タイムゾーンフィールドの欠落、命名規則の不一致 スキーマ検証やコミットフックによる検証が存在しない Claude Code スキルは「実行可能な基準」として機能し、モデルに依存せず一貫した手順を強制します。 セットアップ cc-openclaw リポジトリを使います: 1 2 3 git clone https://github.com/rahulsub-be/cc-openclaw.git ~/cc-openclaw cd ~/cc-openclaw stow --no-folding -t ~/your-openclaw-home-repo . ここで使っている stow は GNU Stow というシンボリックリンク管理ツールです。dotfiles 管理(.bashrc, .vimrc 等)でよく使われるもので、上記のコマンドは cc-openclaw リポジトリ内のファイル(.claude/skills/ 以下のスキル定義など)を、OpenClaw のホームリポジトリにシンボリックリンクとして配置します。コピーではなくリンクなので、cc-openclaw 側で git pull するだけでスキル定義が最新に更新されます。--no-folding オプションにより、ディレクトリ自体ではなくファイル単位でリンクが作成されます。 ...

2026年3月10日 · 2 分

OpenClaw × Claude Code セットアップガイド — AI エージェントチームを構築する2つのアプローチ

OpenClaw と Claude Code を組み合わせることで、AI エージェントチームの構築・管理を効率化できます。本記事では、2つの主要な連携アプローチとそのセットアップ方法を解説します。 アプローチ1: Claude Code のスキルで OpenClaw を管理する Claude Code のスキル機能(.claude/skills/ に配置する Markdown ファイル)を使い、OpenClaw のエージェント作成・設定管理を標準化する方法です。 なぜスキルで管理するのか 複数の AI エージェントを運用していると、以下の問題が発生します: モデルやコンテキストの違いによる設定の不統一 タイムゾーンフィールドの欠落、命名規則の不一致 スキーマ検証やコミットフックによる検証が存在しない Claude Code スキルは「実行可能な基準」として機能し、モデルに依存せず一貫した手順を強制します。 セットアップ cc-openclaw リポジトリを使います: 1 2 3 git clone https://github.com/rahulsub-be/cc-openclaw.git ~/cc-openclaw cd ~/cc-openclaw stow --no-folding -t ~/your-openclaw-home-repo . ここで使っている stow は GNU Stow というシンボリックリンク管理ツールです。dotfiles 管理(.bashrc, .vimrc 等)でよく使われるもので、上記のコマンドは cc-openclaw リポジトリ内のファイル(.claude/skills/ 以下のスキル定義など)を、OpenClaw のホームリポジトリにシンボリックリンクとして配置します。コピーではなくリンクなので、cc-openclaw 側で git pull するだけでスキル定義が最新に更新されます。--no-folding オプションにより、ディレクトリ自体ではなくファイル単位でリンクが作成されます。 ...

2026年3月10日 · 2 分

AGENTS.md は詳しすぎると逆効果 — ETH Zurich の138リポジトリ研究が示す「書かない」原則

AI コーディングエージェントの設定ファイル(AGENTS.md、CLAUDE.md など)は「詳しく書くほど良い」と思われがちだ。しかし ETH Zurich の研究チームが138リポジトリ・5,694プルリクエストを対象に行った調査で、詳細すぎるコンテキストファイルはむしろ性能を下げることが実証された。 研究の概要 ETH Zurich の Gloaguen、Mündler、Müller、Raychev、Vechev らが2026年2月に発表した論文で、AGENTS.md ファイルが AI コーディングエージェントの性能に与える影響を大規模に検証した。 対象: 138リポジトリ、5,694プルリクエスト 検証: LLM 生成ファイルと人間が書いたファイルの両方を比較 衝撃的な結果 自動生成されたコンテキストファイルは害になる 成功率が約3%低下 推論コストが20%以上増加 エージェントは推論トークンの14〜22%をドキュメント処理に消費 人間が書いても効果は限定的 改善はわずか**4%**にとどまる コストの増加に見合わない なぜ詳細な指示が逆効果になるのか AI エージェントは「従順すぎる」 エージェントはコンテキストファイルの指示を律儀に守る。そのため、不要な制約が含まれていると逆にタスクが難しくなる。「良かれと思って書いた指示」が足を引っ張る。 ディレクトリツリーやコードベース概要は不要 エージェントはファイル構造を自力で発見するのが得意だ。手動でディレクトリツリーを記述しても、トークンを消費するだけでナビゲーション速度は改善しない。 強いモデルほど追加コンテキストが邪魔になる GPT-5.2 のような強力なモデルは、ライブラリや慣例のパラメトリック知識を既に持っている。追加コンテキストは冗長なノイズになるだけだ。 効果があるのは「非自明なツール指定」 研究で唯一、劇的な効果が確認されたのはプロジェクト固有のツール指定だ: pip の代わりに uv を使う npm の代わりに bun を使う 例えば uv を明示した場合、160倍多く使われたという結果が出ている。エージェントが自力では推測できない「非自明な選択」だけを書くのが正解だ。 推奨される6つの原則 コード内で発見可能な情報は除外 — エージェントが自力で見つけられるものは書かない 否定形ではなく肯定形で指示 — 「〜するな」ではなく「〜せよ」 決定論的チェックと組み合わせる — linter やテストで検証可能なルールを設定 想定ではなく実際の失敗から反復 — 問題が起きてから追記する 重要情報を最初に配置 — トークン処理の優先順位を考慮 30行以下を目指す — プロチームは60行以下、推奨は300行以下 実践的な AGENTS.md の書き方 悪い例(よくある過剰な記述) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 # プロジェクト概要 このプロジェクトは React + TypeScript で構築された... # ディレクトリ構造 src/ ├── components/ ├── hooks/ ├── utils/ └── pages/ # コーディング規約 - 変数名はキャメルケースを使用する - コンポーネントはアロー関数で定義する - インポートは以下の順序で記述する... (以下100行続く) 良い例(非自明な指定のみ) 1 2 3 4 5 6 7 8 # ツール - パッケージマネージャ: bun(npm/yarn ではなく) - テストランナー: vitest - フォーマッタ: biome(prettier ではなく) # プロジェクト固有のルール - API クライアントは src/lib/api.ts の共通関数を使う - 環境変数は .env.local から読み込む(.env は使わない) 最良の AGENTS.md は不要なものである 研究が示す最も重要な結論は、AGENTS.md の改善に時間を費やすより、コードベース自体を改善すべきということだ: ...

2026年3月9日 · 1 分