Anthropic が Claude Code の新機能「Code Review」を発表した。PR が開かれると、複数のエージェントがチームとして並列にコードレビューを実行し、人間が見落としがちなバグを検出する。開発者の Boris Cherny 氏(@bcherny)は「数週間使って、自分では気づかなかった本物のバグを何度も見つけてくれた」と報告している

仕組み

PR がオープンされると、Code Review は以下のステップを実行する:

  1. エージェントチームの派遣 — 複数のエージェントが並列に動き、それぞれ異なるクラスの問題(ロジックエラー、セキュリティ脆弱性、コード品質など)を探す
  2. 検証フェーズ — 候補として検出された問題を実際のコード挙動と照合し、偽陽性をフィルタリングする
  3. 深刻度ランキング — 検出された問題を重要度順に並べる
  4. レビューコメント投稿 — PR に対してサマリーコメント 1 件と、具体的な問題箇所へのインラインコメントを投稿する

レビューの深さは PR の規模と複雑さに応じてスケールする。大きく複雑な変更にはより多くのエージェントが投入される。

検出精度

Anthropic 社内でのテスト結果:

PR サイズ指摘ありの割合平均指摘数
大規模(1,000行以上)84%7.5件
小規模(50行未満)31%0.5件

特筆すべきは誤検出率が 1% 未満という点だ。エンジニアが「この指摘は間違い」と判定したケースがほとんどなく、検証フェーズによる偽陽性フィルタリングが効果的に機能していることを示している。

なぜ必要なのか

Cherny 氏によれば、Anthropic のエンジニア一人あたりのコード出力は 2026 年に入って 200% 増加した。AI コーディングエージェントによってコード生成が加速する一方で、レビューがボトルネックになっていた。人間のレビュアーが処理できる量には限界があり、AI が書いたコードも人間が書いたコードも、同じ品質基準でレビューする必要がある。

Code Review はこの問題に対する Anthropic 自身の解答だ。まず社内で使い、効果を確認した上で外部に公開している。

利用条件

  • 対象プラン: Team / Enterprise(Research Preview)
  • 料金: トークン使用量に基づく従量課金。PR サイズと複雑さに応じて平均 $15〜25
  • レビュー時間: 約 20 分
  • セットアップ: 管理者が GitHub App をインストールし、対象リポジトリを選択。開発者側の追加設定は不要

組織レベルでの月間支出上限、リポジトリ単位の有効化制御、レビュー受け入れ率の分析ダッシュボードも用意されている。

人間のレビューを置き換えるのか

置き換えない。Code Review は PR を自動承認しない。人間による承認は引き続き必要だ。位置づけは「人間のレビューの補完」であり、人間が集中すべきアーキテクチャ判断やビジネスロジックの妥当性といった高レベルの観点に注力できるよう、機械的に検出可能なバグを先に潰す役割を担う。

ハーネスエンジニアリングとの接点

ハーネスエンジニアリングの文脈で見ると、Code Review は検証層の強力なツールとなる。従来のリンターやフォーマッターが「決定論的に検出可能な問題」を扱うのに対し、Code Review は「文脈を理解した上でのバグ検出」という、これまで人間にしかできなかった領域をカバーする。

ただし検証フェーズで偽陽性をフィルタリングしている点は、ハーネスエンジニアリングの原則「決定論的ツールで品質を強制する」と通底する。AI の出力を AI 自身が検証するという再帰的な構造が、精度 99% 超という結果につながっている。

参考