Claude Code時代の仕様書の役割 — ゼロトピック #337 から考える仕様駆動開発

ゼロトピック(Zero Topic)の #337「Claude Code時代の仕様書の役割」 が話題になっている。10X の矢本氏が、生成 AI が開発プロセスに与える影響と、仕様書の役割がどう変わるかを整理した回だ。 バイブコーディングの限界と仕様駆動開発 Claude Code のようなAIコーディングエージェントの登場で、コード生成速度は飛躍的に向上した。しかし「バイブコーディング」— AI に任せて探索的にコードを生成するアプローチ — には問題がある。 検証負債の蓄積: AI の生成速度が人間の理解・検証速度を上回る 意図不明なコード増殖: 内部構造を精査せず先に進み、誰も理解していない領域が広がる デバッグ困難化: コードの意図が不明では根本原因の特定が難しい こうした課題に対する解が 仕様駆動開発(Spec-Driven Development: SDD) だ。Thoughtworks Technology Radar Vol.32(2025年4月)で Trial に採用されたこの手法は、「仕様を先に定義し、その仕様に基づいて AI にコードを生成させる」という原則に立つ。 仕様書の役割の変化 従来の設計書は人間同士のコミュニケーションツールだった。AI との協働では「AI への指示書」としての側面が加わる。 SDD における仕様書の構成は、Kiro が提唱する3層モデルが分かりやすい: ファイル 役割 requirements.md ユーザーストーリーと受け入れ基準 design.md アーキテクチャ、シーケンス、設計上の注意 tasks.md 実装計画とタスク分解 重要なポイントは、仕様は 「唯一の情報源(Single Source of Truth)」 として機能し、プロセス駆動はルールブック(プロセスルール)が別途担当するという区別だ。 Claude Code での実践 基礎レベル: CLAUDE.md + ステアリングファイル CLAUDE.md に制約・規約・コンテキストを定義 .steering/ 配下に作業バッチフォルダを作成 要件定義書・設計書・タスクリストを生成・保存 タスクに沿ってコード生成・テスト実施 応用レベル: カスタムコマンドの活用 2026年1月に plansDirectory 設定が追加され、/plan モードで作成した計画書を Git 管理できるようになった。さらにカスタムコマンドを使えば、ドメイン知識を埋め込んだ独自のワークフローを構築できる。 ...

2026年3月10日 · 1 分

freee MCP × Claude Code で確定申告の仕訳1,428件を20分で終わらせた話

minicoohei 氏(@minicoohei)が、freee の公式 MCP サーバーと Claude Code を組み合わせて確定申告の仕訳1,428件をわずか20分で完了させた事例を公開した。手作業なら4〜5時間かかる Amex のクレジットカード明細の仕訳登録を、AI が自動化した。 ワークフローの概要 Amex の取引明細(1,428件)を入力データとして用意 — 通常の手作業では1件ずつ勘定科目を判断して登録する必要がある AI が70以上の分類ルールを自動生成 — 取引内容のパターンを分析し、勘定科目の振り分けルールを構築する 対話的なルール調整 — 人間との会話を通じてルールを精緻化する。税務リスクのある取引を事前に特定し、適切な処理方法を提案する 並列バッチ処理で一括登録 — freee API 経由で全件をエラーゼロで登録する freee MCP とは freee は公式の MCP サーバー(freee-mcp)を OSS として公開している。会計・人事労務・請求書・勤怠・販売の5領域にわたる API を、AI エージェントから操作可能にするインターフェースだ。 Claude Code や Claude Desktop から接続すると、「この請求書を発行して」「今月の経費を集計して」といった自然言語の指示で freee の業務を実行できる。 なぜ効果的なのか 従来の会計ソフトの自動仕訳機能は、事前に設定したルールに基づく単純なパターンマッチングだった。Claude Code を使うアプローチには以下の利点がある: 文脈理解による分類精度 — 取引先名や摘要の自然言語を理解して勘定科目を判断する。「AWS」なら通信費、「タクシー」なら旅費交通費、といった判断を人間と同等の精度で行える 対話による例外処理 — 判断に迷うケースを人間に確認し、その回答を以降のルールに反映する バッチ処理の効率 — MCP 経由で freee API を直接操作するため、GUI での手作業が不要 実務での注意点 freee MCP を Claude Code と組み合わせる場合、いくつかの実務的な考慮点がある: ...

2026年3月10日 · 1 分

Karpathy の autoresearch — 寝ている間にAIが100回実験して朝にはモデルが賢くなっている世界

Andrej Karpathy が公開した autoresearch は、AI エージェントが自律的に ML 実験を繰り返すツールだ。寝ている間に AI が 100 回実験し、朝起きたらモデルが賢くなっている——そんな研究スタイルを 630 行の Python コードで実現する。 autoresearch とは nanochat(軽量 LLM 学習コア)をシングル GPU・1 ファイルに凝縮し、AI エージェントが自律ループで学習コードを改善していく仕組み。 基本構造はシンプル: 人間が .md ファイル(プロンプト)を設計する AI エージェントが .py(学習コード)を自律的に改善する 各実験は ちょうど 5 分間 のトレーニングで構成され、1 時間あたり約 12 回、一晩で約 100 回の実験が自動で回る。 人間: program.md を設計(研究の方針・制約を定義) ↓ AI エージェント: 学習コードを修正 ↓ 5分間のトレーニング実行 ↓ 結果を評価(validation loss) ↓ 改善されていれば git commit → 次のイテレーションへ 技術的な特徴 630 行のミニマル設計 autoresearch の核心は「小さく始めて、エージェントに任せる」という哲学にある。 シングル GPU で完結(マルチ GPU 不要) ニューラルネットワークのアーキテクチャ、オプティマイザ、ハイパーパラメータすべてを AI が調整 git feature ブランチ上で動作し、改善があれば自動コミット MIT ライセンスで公開 「コードを書く」のではなく「プログラムをプログラムする」 Karpathy が強調するのは、研究者が Python ファイルを直接触るのではなく、Markdown でエージェントへの指示を設計するというパラダイムシフトだ。 ...

2026年3月10日 · 1 分

MiroFish — 20歳の学生が10日間の Vibe Coding で作った AI 未来予測エンジンが GitHub Trending 1位に

20歳の中国の大学4年生・郭航江(Guo Hangjiang)氏が、わずか10日間の Vibe Coding で開発した OSS「MiroFish」が GitHub Trending で3日連続1位を獲得し、Star 数は約 11,000 を超えて急増中です。さらに、盛大グループ創業者の陳天橋氏がデモを見て24時間以内に3,000万元(約6.9億円)の即決投資を行ったと報じられています。 MiroFish とは MiroFish は、マルチエージェント技術を活用した次世代の AI 予測エンジンです。ニュース・政策・金融データなどのテキストを投入すると、AI が数千の人格を持つエージェントを生成し、エージェント同士が相互作用することで未来の社会・市場の動きをシミュレートします。 公式の説明では「A Simple and Universal Swarm Intelligence Engine, Predicting Anything(簡潔で汎用的な群体知能エンジン、万物を予測)」とされています。 仕組み MiroFish の動作は以下のステップで構成されます。 シード情報の抽出 — ニュース速報、政策草案、金融シグナルなどの現実世界のデータを取り込む デジタルワールドの構築 — 取り込んだ情報から高忠実度な並行デジタル世界を自動構築 エージェントの生成 — 独立した人格、長期記憶、行動ロジックを持つ数千〜数万のエージェントを生成 社会進化シミュレーション — エージェント同士が自由に相互作用し、社会的進化を遂げる 変数注入と予測 — ユーザーが動的に変数を注入し、未来がどう展開するかの精密なシミュレーションを実行 想定される活用シナリオ 金融意思決定支援 — 市場動向の予測と投資判断 政策・世論予測 — 政策変更がもたらす社会的影響の分析 PR 危機シミュレーション — 企業の危機管理対応の事前検証 マーケティング戦略テスト — キャンペーン効果の事前予測 ストーリー・フィクション推演 — 物語の展開シミュレーション 学術研究支援 — 社会科学的仮説の検証 Vibe Coding で10日間 注目すべきは、MiroFish が Claude Code などの AI コーディングツールを活用した「Vibe Coding」で開発されたという点です。Vibe Coding とは、AI エージェントと対話しながら直感的にコードを生成していく開発手法で、従来の開発と比較して大幅な時間短縮が可能です。 ...

2026年3月10日 · 2 分

OpenClaw × Claude Code セットアップガイド — AI エージェントチームを構築する2つのアプローチ

OpenClaw と Claude Code を組み合わせることで、AI エージェントチームの構築・管理を効率化できます。本記事では、2つの主要な連携アプローチとそのセットアップ方法を解説します。 アプローチ1: Claude Code のスキルで OpenClaw を管理する Claude Code のスキル機能(.claude/skills/ に配置する Markdown ファイル)を使い、OpenClaw のエージェント作成・設定管理を標準化する方法です。 なぜスキルで管理するのか 複数の AI エージェントを運用していると、以下の問題が発生します: モデルやコンテキストの違いによる設定の不統一 タイムゾーンフィールドの欠落、命名規則の不一致 スキーマ検証やコミットフックによる検証が存在しない Claude Code スキルは「実行可能な基準」として機能し、モデルに依存せず一貫した手順を強制します。 セットアップ cc-openclaw リポジトリを使います: 1 2 3 git clone https://github.com/rahulsub-be/cc-openclaw.git ~/cc-openclaw cd ~/cc-openclaw stow --no-folding -t ~/your-openclaw-home-repo . ここで使っている stow は GNU Stow というシンボリックリンク管理ツールです。dotfiles 管理(.bashrc, .vimrc 等)でよく使われるもので、上記のコマンドは cc-openclaw リポジトリ内のファイル(.claude/skills/ 以下のスキル定義など)を、OpenClaw のホームリポジトリにシンボリックリンクとして配置します。コピーではなくリンクなので、cc-openclaw 側で git pull するだけでスキル定義が最新に更新されます。--no-folding オプションにより、ディレクトリ自体ではなくファイル単位でリンクが作成されます。 ...

2026年3月10日 · 2 分

OpenClaw × Claude Code セットアップガイド — AI エージェントチームを構築する2つのアプローチ

OpenClaw と Claude Code を組み合わせることで、AI エージェントチームの構築・管理を効率化できます。本記事では、2つの主要な連携アプローチとそのセットアップ方法を解説します。 アプローチ1: Claude Code のスキルで OpenClaw を管理する Claude Code のスキル機能(.claude/skills/ に配置する Markdown ファイル)を使い、OpenClaw のエージェント作成・設定管理を標準化する方法です。 なぜスキルで管理するのか 複数の AI エージェントを運用していると、以下の問題が発生します: モデルやコンテキストの違いによる設定の不統一 タイムゾーンフィールドの欠落、命名規則の不一致 スキーマ検証やコミットフックによる検証が存在しない Claude Code スキルは「実行可能な基準」として機能し、モデルに依存せず一貫した手順を強制します。 セットアップ cc-openclaw リポジトリを使います: 1 2 3 git clone https://github.com/rahulsub-be/cc-openclaw.git ~/cc-openclaw cd ~/cc-openclaw stow --no-folding -t ~/your-openclaw-home-repo . ここで使っている stow は GNU Stow というシンボリックリンク管理ツールです。dotfiles 管理(.bashrc, .vimrc 等)でよく使われるもので、上記のコマンドは cc-openclaw リポジトリ内のファイル(.claude/skills/ 以下のスキル定義など)を、OpenClaw のホームリポジトリにシンボリックリンクとして配置します。コピーではなくリンクなので、cc-openclaw 側で git pull するだけでスキル定義が最新に更新されます。--no-folding オプションにより、ディレクトリ自体ではなくファイル単位でリンクが作成されます。 ...

2026年3月10日 · 2 分

AGENTS.md は詳しすぎると逆効果 — ETH Zurich の138リポジトリ研究が示す「書かない」原則

AI コーディングエージェントの設定ファイル(AGENTS.md、CLAUDE.md など)は「詳しく書くほど良い」と思われがちだ。しかし ETH Zurich の研究チームが138リポジトリ・5,694プルリクエストを対象に行った調査で、詳細すぎるコンテキストファイルはむしろ性能を下げることが実証された。 研究の概要 ETH Zurich の Gloaguen、Mündler、Müller、Raychev、Vechev らが2026年2月に発表した論文で、AGENTS.md ファイルが AI コーディングエージェントの性能に与える影響を大規模に検証した。 対象: 138リポジトリ、5,694プルリクエスト 検証: LLM 生成ファイルと人間が書いたファイルの両方を比較 衝撃的な結果 自動生成されたコンテキストファイルは害になる 成功率が約3%低下 推論コストが20%以上増加 エージェントは推論トークンの14〜22%をドキュメント処理に消費 人間が書いても効果は限定的 改善はわずか**4%**にとどまる コストの増加に見合わない なぜ詳細な指示が逆効果になるのか AI エージェントは「従順すぎる」 エージェントはコンテキストファイルの指示を律儀に守る。そのため、不要な制約が含まれていると逆にタスクが難しくなる。「良かれと思って書いた指示」が足を引っ張る。 ディレクトリツリーやコードベース概要は不要 エージェントはファイル構造を自力で発見するのが得意だ。手動でディレクトリツリーを記述しても、トークンを消費するだけでナビゲーション速度は改善しない。 強いモデルほど追加コンテキストが邪魔になる GPT-5.2 のような強力なモデルは、ライブラリや慣例のパラメトリック知識を既に持っている。追加コンテキストは冗長なノイズになるだけだ。 効果があるのは「非自明なツール指定」 研究で唯一、劇的な効果が確認されたのはプロジェクト固有のツール指定だ: pip の代わりに uv を使う npm の代わりに bun を使う 例えば uv を明示した場合、160倍多く使われたという結果が出ている。エージェントが自力では推測できない「非自明な選択」だけを書くのが正解だ。 推奨される6つの原則 コード内で発見可能な情報は除外 — エージェントが自力で見つけられるものは書かない 否定形ではなく肯定形で指示 — 「〜するな」ではなく「〜せよ」 決定論的チェックと組み合わせる — linter やテストで検証可能なルールを設定 想定ではなく実際の失敗から反復 — 問題が起きてから追記する 重要情報を最初に配置 — トークン処理の優先順位を考慮 30行以下を目指す — プロチームは60行以下、推奨は300行以下 実践的な AGENTS.md の書き方 悪い例(よくある過剰な記述) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 # プロジェクト概要 このプロジェクトは React + TypeScript で構築された... # ディレクトリ構造 src/ ├── components/ ├── hooks/ ├── utils/ └── pages/ # コーディング規約 - 変数名はキャメルケースを使用する - コンポーネントはアロー関数で定義する - インポートは以下の順序で記述する... (以下100行続く) 良い例(非自明な指定のみ) 1 2 3 4 5 6 7 8 # ツール - パッケージマネージャ: bun(npm/yarn ではなく) - テストランナー: vitest - フォーマッタ: biome(prettier ではなく) # プロジェクト固有のルール - API クライアントは src/lib/api.ts の共通関数を使う - 環境変数は .env.local から読み込む(.env は使わない) 最良の AGENTS.md は不要なものである 研究が示す最も重要な結論は、AGENTS.md の改善に時間を費やすより、コードベース自体を改善すべきということだ: ...

2026年3月9日 · 1 分

AI Agent に品質を担保させる — QA 手法の実践ガイド

Claude Code や Cursor、Devin といった AI コーディングエージェントの導入が進むなか、「品質をどう担保するか」が最大の課題になっている。栗田氏(@hikarine3)が公開した実践ガイドから、要点を紹介する。 Sonar の調査によれば、開発者の 96% が AI 生成コードを完全には信頼していないにもかかわらず、実際に検証しているのは 48% に過ぎない。この「検証ギャップ」が AI 開発における最大のリスクだ。 1. 設定ファイルにルールを書く CLAUDE.md や .cursorrules 等の設定ファイルに、最低限 3 つのルールを書くだけで事故を大幅に減らせる。 ルール 防げる事故 テスト結果を「○件中○件が正常」形式で報告 0 件検出の見落とし 影響範囲を確認 1 ファイル修正で他が壊れる ファイル削除・本番デプロイ・DB 操作は承認必須 取り返しのつかないミス 設定ファイルは 50 行以内 を推奨。IFScale の研究では、指示が長すぎると AI が先頭と末尾だけに従う傾向がある。詳細は別ファイルへの参照(ポインタ設計)で対応する。 2. リスクレベルで使い分ける すべてのプロジェクトに同じ品質基準を適用する必要はない。 レベル 対象 テスト深度 ラフ 静的サイト、ブログ 目視確認 標準 Web アプリ(ユーザーデータあり) 回帰テスト 厳密 金融・決済・認証・個人情報 境界値・異常系テスト 3. AI にテスト設計もさせる 従来のように 12 項目のチェックリストを人間が作るのではなく、「この変更の回帰テストをして。検出件数も報告して」と指示するだけで、AI がテストケースの設計・実行・報告まで行える。 4. AI のテストが「嘘」になる 10 パターン AI エージェントが出す「全件正常です」を鵜呑みにしてはいけない。代表的な落とし穴: ...

2026年3月9日 · 2 分

AI Agent に品質を担保させる — QA 手法の実践ガイド

Claude Code や Cursor、Devin といった AI コーディングエージェントの導入が進むなか、「品質をどう担保するか」が最大の課題になっている。栗田氏(@hikarine3)が公開した実践ガイドから、要点を紹介する。 Sonar の調査によれば、開発者の 96% が AI 生成コードを完全には信頼していないにもかかわらず、実際に検証しているのは 48% に過ぎない。この「検証ギャップ」が AI 開発における最大のリスクだ。 1. 設定ファイルにルールを書く CLAUDE.md や .cursorrules 等の設定ファイルに、最低限 3 つのルールを書くだけで事故を大幅に減らせる。 ルール 防げる事故 テスト結果を「○件中○件が正常」形式で報告 0 件検出の見落とし 影響範囲を確認 1 ファイル修正で他が壊れる ファイル削除・本番デプロイ・DB 操作は承認必須 取り返しのつかないミス 設定ファイルは 50 行以内 を推奨。IFScale の研究では、指示が長すぎると AI が先頭と末尾だけに従う傾向がある。詳細は別ファイルへの参照(ポインタ設計)で対応する。 2. リスクレベルで使い分ける すべてのプロジェクトに同じ品質基準を適用する必要はない。 レベル 対象 テスト深度 ラフ 静的サイト、ブログ 目視確認 標準 Web アプリ(ユーザーデータあり) 回帰テスト 厳密 金融・決済・認証・個人情報 境界値・異常系テスト 3. AI にテスト設計もさせる 従来のように 12 項目のチェックリストを人間が作るのではなく、「この変更の回帰テストをして。検出件数も報告して」と指示するだけで、AI がテストケースの設計・実行・報告まで行える。 4. AI のテストが「嘘」になる 10 パターン AI エージェントが出す「全件正常です」を鵜呑みにしてはいけない。代表的な落とし穴: ...

2026年3月9日 · 2 分

Claude Code Security — AI がコードベースの脆弱性を発見・修正提案する新機能

Anthropic が Claude Code Security を限定リサーチプレビューとして公開しました。AI がコードベース全体をスキャンして脆弱性を検出し、修正パッチまで提案してくれる機能です。 Claude Code Security とは 従来の静的分析ツール(SAST)はルールベースでパターンマッチングを行うため、ビジネスロジックの欠陥やアクセス制御の不備など、文脈依存の脆弱性を見落としがちでした。 Claude Code Security は、人間のセキュリティ研究者のようにコードを「理解」するアプローチを採用しています。 コンポーネント間の相互作用を把握する アプリケーション全体のデータフローを追跡する ルールベースツールでは検出困難な脆弱性を発見する 主な特徴 多段階検証プロセス 検出した脆弱性は多段階の検証プロセスにかけられ、誤検知(false positive)がフィルタリングされます。各脆弱性には重大度評価と信頼度スコアが付与されます。 ヒューマン・イン・ザ・ループ 修正パッチは自動適用されません。Claude Code Security は問題の特定と解決策の提案を行い、最終的な判断は開発者が行います。 実績 Anthropic のレッドチーム活動では、Claude Opus 4.6 を使用して本番環境のオープンソースプロジェクトから 500 以上の脆弱性 を発見しました。これらは数十年にわたり専門家のレビューを経ても検出されなかったバグです。 利用方法 プラン 利用可否 Enterprise 即時利用可能 Team 即時利用可能 オープンソースメンテナー 無料で迅速なアクセスを提供(申請制) 詳細は Anthropic 公式の Claude Code Security ページ を参照してください。 従来のツールとの違い 従来の SAST ツールは既知のパターンを検索する仕組みのため、新しいタイプの脆弱性や複雑なロジックの欠陥には対応しきれませんでした。Claude Code Security は LLM の推論能力を活用して、コードの意味を理解した上で脆弱性を検出するという点で、セキュリティスキャンの新しいアプローチといえます。 まとめ Claude Code Security は「脆弱性は多いが対応する人員が少ない」というセキュリティチームの課題に対し、AI による自動検出と修正提案で支援するツールです。現時点では限定リサーチプレビューですが、今後のセキュリティ開発ワークフローに大きな影響を与える可能性があります。

2026年3月9日 · 1 分