AI コーディングエージェントの二大巨頭、Anthropic の Claude Code と OpenAI の Codex。どちらを使うべきか迷っている開発者は多いでしょう。Hesam 氏(@Hesamation)が数ヶ月間の実用比較を経て「Claude Code に戻った」という記事が話題になっています。本記事では、両ツールのベンチマーク・アーキテクチャ・実用上の使い分けを整理します。
ベンチマーク比較
SWE-bench Pro(ソフトウェアエンジニアリングタスク)
| モデル | スコア |
|---|---|
| Claude Opus 4.6 | 59.0% |
| GPT-5.3-Codex | 56.8% |
複雑なソフトウェアエンジニアリングタスクでは Claude Opus 4.6 がリードしています。
Terminal-Bench 2.0(ターミナル操作タスク)
| モデル | スコア |
|---|---|
| GPT-5.3-Codex | 77.3% |
| Claude Opus 4.6 | 65.4% |
一方、CLI 操作や CI/CD 関連のタスクでは Codex が強さを発揮します。
アーキテクチャの違い
コンテキストウィンドウ
- Claude Code: 100万トークン(ベータ)
- Codex: 40万トークン
Claude Code は 2.5 倍のコンテキストウィンドウを持ち、大規模なコードベースの横断的な分析に強みがあります。
実行速度
- Codex: Cerebras WSE-3 で 1,000+ トークン/秒
- Claude Code: 約 200 トークン/秒(標準推論)
速度面では Codex が圧倒的です。ただし、Claude Code はトークン消費量が 3.2〜4.2 倍多い傾向にあり、同じタスクでもより多くの推論を行っている可能性があります。
マルチエージェント機能
- Codex: クラウドサンドボックスでタスクごとに隔離。SubAgent(Swarm)で並列処理
- Claude Code: Agent Teams でサブエージェントを協調動作。共有タスクリスト、依存関係追跡、git worktree での並列作業
モデルの「性格」の違い
両モデルのアプローチには本質的な違いがあります。
「Codex は “measure twice, cut once”(二度測って一度切る)型のモデル。Opus は “screw measurements, cut three times, and deal with the consequences”(測定なんか気にせず三回切って、後は何とかする)型のモデル。」
より具体的には:
- Opus(Claude Code): 積極的にコードを書き、ビルドしながら問題を解決する。複雑なタスクに強い
- GPT-5.3-Codex: シニアエンジニアのコードレビューのような慎重さで、コードを精査・改善する。速度と安定性に優れる
料金とプラン(月額 $20 プラン)
| 項目 | Claude Pro | Codex Plus |
|---|---|---|
| メッセージ制限 | ヘビーユーザーは制限に達しやすい | 5時間あたり 30〜150 メッセージ |
| モデル | Opus 4.6 / Sonnet 4.6 | GPT-5.3-Codex |
| ユーザー満足度 | 4.0/5 | 3.4/5 |
Hesam 氏が Claude Code に戻った理由
数ヶ月間両ツールを使い比べた Hesam 氏は、最終的に Claude Code をメインに戻しています。ツイートで紹介されている実験では、複雑なタスクでは Claude の Opus に軍配が上がる結果となりました。
この結論は多くの比較記事とも一致しており、タスクの複雑さによって使い分けるのが現実的です。
使い分けガイド
Claude Code が向いているケース
- 大規模なコードベースの横断的な分析や修正
- 複雑なマルチファイル変更
- セキュリティ監査
- マルチエージェントでの協調作業
Codex が向いているケース
- 高速な反復的コーディング
- ターミナル操作・CLI タスク
- CI/CD パイプラインの構築
- コードレビュー
両方を組み合わせる
実際に成功している開発者の多くは両ツールを併用しています。Claude Code で設計・実装を行い、Codex でターミナル操作やコードレビューを行うという使い分けが推奨されています。
まとめ
Claude Code と Codex は競合というよりも補完関係にあります。Claude Code は「一緒にプロジェクトを進めるチームメイト」、Codex は「必要なときに呼べるエキスパート」という位置づけです。どちらか一方に絞る必要はなく、タスクの性質に応じて使い分けることで、AI コーディングの恩恵を最大化できるでしょう。