Claude Opus 4.6 がゼロデイ脆弱性を500件発見 — AI推論がセキュリティ業界を揺るがす

@neurostack_0001 氏のポストが、Anthropic の衝撃的な発表を紹介しています。Claude Opus 4.6 が、ファジングやカスタムツールを使わず、コードの推論だけで500件以上のゼロデイ脆弱性を発見したという内容です。

AnthropicがClaude Opus 4.6で「ゼロデイ脆弱性を大規模に発見できる」と発表。500件以上の高重大度脆弱性を検出・検証済み。ファジングやカスタムツール不要で、コードの推論だけで脆弱性を見つけている点が注目。

この発表は、CrowdStrike や Cloudflare の株価を8%以上下落させるほどのインパクトを持ちました。セキュリティ業界に何が起きているのか、技術的な背景から掘り下げます。

ファジングとは何か

ファジング(Fuzzing)は、プログラムに対して無効なデータ、予期しないデータ、ランダムなデータを大量に入力し、クラッシュや異常動作を引き起こすことで脆弱性を検出するテスト手法です。1988年にウィスコンシン大学の Barton Miller 教授が考案し、現在ではセキュリティテストの標準手法となっています。

ファジングの種類

ファジングは、テスト対象の内部構造をどの程度把握しているかによって3つに分類されます。

分類内部構造の把握特徴
ブラックボックスなし入出力のみを観察。実装が不明でも実行可能
グレーボックス部分的コードカバレッジを計測し、入力生成を最適化
ホワイトボックス完全ソースコードを解析し、制約条件を満たす入力を生成

また、入力データの生成方法でも分類できます。

  • ミューテーションファジング: 既知の有効な入力(シード)に対して、ビット反転やバイトの挿入・削除・置換などの変異を加えてテストケースを生成します。実装が容易で汎用性が高い手法です
  • ジェネレーションファジング: 入力データの構造や文法を定義し、仕様に基づいて有効な形式でありながらも不正な値を含むテストケースを生成します。プロトコルやファイルフォーマットのテストに有効です

カバレッジガイドファジング — AFL の登場

2014年に登場した AFL(American Fuzzy Lop)は、ファジングの実用性を大きく向上させました。名前はウサギの品種に由来しています。

AFL の革新は「カバレッジガイド」の概念です。テスト対象プログラムをインストルメント(計測コードの埋め込み)し、各入力がどの実行経路を通ったかを記録します。新しい経路を発見した入力を優先的にミューテーションすることで、コードの未探索領域へ効率的に到達します。

[シード入力] → [ミューテーション] → [実行・カバレッジ計測]
                    ↑                        ↓
                    └── [新しい経路を発見?] ──┘
                         Yes → キューに追加
                         No  → 破棄

この手法はグレーボックスファジングとも呼ばれ、AFL の後継である AFL++ や Google の libFuzzer など、多くのツールが同様のアプローチを採用しています。

OSS-Fuzz — 大規模継続ファジングの実績

Google が2016年に開始した OSS-Fuzz は、オープンソースソフトウェアに対する継続的なファジングサービスです。1,300以上のプロジェクトを無料でファジングし、これまでに13,000件以上の脆弱性50,000件以上のバグを発見・修正に導いてきました。

2024年には AI を活用した拡張も行われ、AI 生成のファジングハーネスで26件の新規脆弱性を発見しています。ただし、この時点ではあくまで「AI がファジングの入力生成を支援する」アプローチであり、コード推論で脆弱性を直接発見するものではありませんでした。

ファジングの限界

長年の実績を持つファジングですが、構造的な限界があります。

  • 到達困難なコードパス: 複雑な条件分岐や認証チェックの先にあるコードには入力が到達しにくい
  • ロジックの脆弱性: クラッシュを引き起こさないビジネスロジックの欠陥は検出できない
  • 意味的な理解の欠如: コードが「何をしているか」は理解せず、あくまで入出力の振る舞いだけを観察する
  • CPU 時間の消費: 大規模なコードベースでは、十分なカバレッジを得るまでに膨大な計算リソースが必要

Claude Opus 4.6 は何が違うのか

Claude Opus 4.6 のアプローチは、このファジングの限界を根本的に超えるものです。

項目従来のファジングClaude Opus 4.6
手法ランダム入力の大量投入コードの意味を理解して推論
到達範囲入力経路が到達可能なコード到達困難なコードパスも分析可能
パターン認識既知のシグネチャとの照合Git履歴から修正パターンを学習
必要リソース大量のCPU時間推論コストのみ
誤検知対策クラッシュの再現性で確認多段階検証プロセス

Opus 4.6 は「人間のセキュリティ研究者のようにコードを読み、分析する」方法論を採用しています。過去の修正コミットからパターンを読み取り、類似の未修正バグを特定する能力を持っています。

具体的な発見事例

Anthropic の Frontier Red Team の報告では、以下の実証事例が紹介されています。

GhostScript

Git コミット履歴から「スタック境界チェックの追加」パターンを特定しました。修正前のコード経路に残存する同種の脆弱性を、コミット差分の推論から発見しています。ファザーでは到達が困難だったコードパスです。

OpenSC(スマートカードライブラリ)

複数の連続的な strcat 操作を識別し、バッファオーバーフロー脆弱性を検出しました。これは文字列連結のサイズチェック漏れという、人間のレビューでも見落としやすいパターンです。

CGIF(GIFライブラリ)

LZW 圧縮アルゴリズムの動作原理を理解した上で、「圧縮データが非圧縮データより大きくなる」ケースを認識しました。シンボルテーブルが満杯になった際のリセットメカニズムに関連する脆弱性です。アルゴリズムの仕様レベルの理解がなければ発見できない種類のバグです。

Claude Code Security の仕組み

2026年2月20日、Anthropic はこの技術を製品化した Claude Code Security をリリースしました。Enterprise および Team 顧客向けの限定リサーチプレビューとして提供されています。

検出プロセス

Claude Code Security は以下の多段階検証プロセスで動作します。

  1. コードベーススキャン: コンポーネント間の相互作用を理解し、データフローを追跡
  2. 脆弱性候補の特定: ビジネスロジックの欠陥、アクセス制御の破損、文脈依存型の問題を検出
  3. 多段階検証: Claude 自身の知見で再検査し、偽陽性をフィルタリング
  4. 重要度・信頼度の付与: 各脆弱性に重要度レーティングと信頼度スコアを割り当て
  5. パッチ提案: 修正パッチを提案し、人間のレビューに提出

重要な原則として、「何も人間の承認なしに適用されない」というヒューマン・イン・ザ・ループが徹底されています。

従来ツールとの違い

静的解析ツール(SAST)がルールベースで既知パターンを検出するのに対し、Claude Code Security は「コードの意味を理解する」アプローチです。これにより、ルールでは捕捉できない以下のような脆弱性を検出できます。

  • コンポーネント間のデータフローに起因する問題
  • ビジネスロジックの欠陥
  • 文脈に依存するアクセス制御の漏れ

セキュリティ業界への衝撃

株価への影響

Claude Code Security の発表は、サイバーセキュリティ企業の株価に大きな影響を与えました。

企業下落幅
CrowdStrike約8〜10%
Cloudflare約8%
Zscaler約10%
Netskope約12%
Tenable約12%
SailPoint約9%

ただし、Bank of America のアナリストは「AI が重大な脅威となるのはコードスキャン領域に限定され、エンドツーエンドのセキュリティプラットフォームを置き換えるものではない」と分析しています。

90日開示ルールの限界

業界標準の90日間の脆弱性開示ウィンドウが、AI の発見速度に対応できなくなる可能性が指摘されています。AI による発見速度は人間のトリアージ能力を既に上回っており、「脆弱性の発見からパッチ適用までの間」が新たな攻撃対象になり得ます。

悪用防止のセーフガード

Anthropic は悪用リスクに対して以下の対策を講じています。

  • サイバー特化型プローブ: モデルの応答生成中に内部の活性化を測定し、悪用の兆候を検出する6つの新しいプローブを導入
  • リアルタイム介入: 悪質なトラフィックのブロッキングを含む強化された執行パイプライン
  • OSS メンテナー支援: オープンソースリポジトリの維持者には無料かつ迅速なアクセスを提供

実務での活用方法

元ツイートでも指摘されている通り、以下のユースケースが考えられます。

PR レビュー時のセキュリティチェック

Claude Code を PR レビューに組み込むことで、コード変更に含まれるセキュリティリスクを自動的に検出できます。特に以下のケースで有効です。

  • 認証・認可ロジックの変更
  • 外部入力を処理するコードの追加
  • データベースクエリの変更

OSS ライブラリのアップデート前チェック

依存ライブラリのアップデート前に、新バージョンのコードに潜在的な脆弱性がないか確認するワークフローを構築できます。特に、セキュリティアドバイザリが出ていない未知の脆弱性に対して効果的です。

既存コードベースの監査

長期運用されているコードベースに対して、定期的なセキュリティ監査を実施できます。数十年間見つからなかった脆弱性を発見した実績があるため、レガシーコードの監査に特に有効です。

まとめ

  • 推論ベースの脆弱性発見: ファジングやルールベースではなく、コードの意味を理解して推論する新しいアプローチが実証された
  • 500件以上の実績: GhostScript、OpenSC、CGIF など、数十年間見つからなかった脆弱性を発見し、全て人間が検証済み
  • Claude Code Security として製品化: Enterprise・Team 向けに限定リサーチプレビューとして提供開始
  • セキュリティ業界への影響: CrowdStrike や Cloudflare の株価が8%以上下落するなど、市場に大きなインパクト
  • 補完であり代替ではない: AI はコードスキャン領域で強力だが、エンドツーエンドのセキュリティプラットフォームを置き換えるものではない
  • 開示ルールの再検討が必要: AI の発見速度は従来の90日開示ウィンドウを超えており、業界全体での対応が求められる
  • 実務活用: PR レビュー時のセキュリティチェックや OSS ライブラリのアップデート前検査に有効

参考