Tdd | hdknr blog

AI時代のQA：「決定論から確率論へ」のパラダイムシフト

AI の進化により、ソフトウェアの品質保証（QA）が根本的な転換期を迎えている。従来の「OK/NG を明確に判定する」決定論的なテストから、「明らかに間違っているものを排除する」確率論的なアプローチへ。このパラダイムシフトが QA エンジニアの役割をどう変えるのかを考える。決定論から確率論へ従来のソフトウェアテストは決定論的だった。入力に対して期待される出力が一意に定まり、テスト結果は OK か NG かの二択。しかし、AI を組み込んだシステムでは、同じ入力に対しても出力が毎回異なる可能性がある。 MIT Technology Review でも報じられているように、コンピューティングの世界全体が決定論的アプローチから確率論的アプローチへ移行しつつある。QA もこの流れと無縁ではない。 AI システムのテストでは、「正解を一つ定義して合否を判定する」のではなく、「明らかに間違っているものを排除し、許容範囲内に収まっているかを評価する」アプローチが求められる。テストコードの AI 丸投げが危険な理由「AI にテストコードを書かせれば効率的」と考えるのは自然だが、ここには大きな落とし穴がある。 AI が生成するテストコードは、実装コードに対して表面的にフィットするテストを作りがちだ。つまり、実装の動作を追認するだけのテストになりやすい。本来テストが担うべき「仕様に対する検証」や「境界値・異常系の網羅」といった設計意図が欠落する可能性がある。テスト設計とは「何をテストすべきか」を決める行為であり、テストコードの記述は「どうテストするか」の実装に過ぎない。AI に丸投げして効率化できるのは後者であり、前者は依然として人間の判断力が不可欠だ。テスト設計スキルの希少性テスト設計ができるエンジニアは 100 人中 5 人程度とも言われる。この希少性は AI 時代においてむしろ差別化要因になる。 MagicPod のブログでも指摘されているように、AI が代替するのは定型的な作業だ。テスト設計・実行の自動化や不具合記録などの繰り返し業務は急速に自動化されている。一方で、以下のようなスキルは AI では代替が難しい。リスク分析に基づくテスト戦略の策定 — どこに重点的にテストリソースを配分すべきかの判断ビジネスコンテキストの理解 — 技術的な正しさだけでなく、ビジネスインパクトを考慮した品質判断探索的テスト — 仕様書に書かれていない暗黙の要件やエッジケースの発見テスト設計情報の少なさと AI の学習限界テスト設計に関する公開情報は、コーディングに関する情報と比較して圧倒的に少ない。Stack Overflow や GitHub にはコードは大量にあるが、「なぜそのテストケースを選んだのか」「どのようなリスク分析に基づいてテスト戦略を決めたのか」といったテスト設計の知見は体系的に蓄積されていない。つまり、AI はテスト設計を学習するための十分なデータを持っていない。これは裏を返せば、テスト設計のスキルを持つ人材の価値が AI 時代にも維持される理由でもある。日本のテスト分析・設計の強み日本はソフトウェアテストの分析・設計の分野で国際的にリードしている。組み合わせテスト技法、状態遷移テスト、デシジョンテーブルテストなど、体系的なテスト設計手法の発展に貢献してきた。しかし、この強みが十分に活かされているとは言い難い。テスト設計の知見が暗黙知にとどまり、コミュニティ全体で共有・活用される仕組みが不足している。AI 時代にこの強みを活かすためには、テスト設計の知見をより体系的に言語化・公開していく取り組みが重要になるだろう。 AI エージェントによるテスト設計・実行の実践では、実際に AI エージェントをテスト設計・実行にどう活用すべきなのか。この分野では理論と実践の両面で急速に知見が蓄積されつつある。 ...

「決定性のないソフトウェア」の設計と評価 × t_wada氏の視点とskill-creatorが実装したTDD→EDD移行パターン

「決定性のないソフトウェア」をどう設計し評価するか — t_wada 氏の視点と skill-creator が実装した答え和田卓人（@t_wada）氏が X で言及した、skill-creator の設計に関するコメントが注目を集めています。 skill-creator いい感じで動作すると思っていたら中身がこのようになっていたのか。決定性のないソフトウェアをどう実践的に設計して評価するかといった観点でも参考になるエントリ。 t_wada 氏は、テスト駆動開発（TDD）の日本における第一人者であり、Kent Beck 著『テスト駆動開発』の翻訳者、power-assert-js の作者として知られるプログラマです。その t_wada 氏が「決定性のないソフトウェアの設計と評価」という観点で skill-creator を評価しています。元記事は逆瀬川ちゃん氏のブログ「skill-creator から学ぶ Skill 設計と、Orchestration Skill の作り方」です。本記事では、t_wada 氏の指摘する「決定性のないソフトウェア」の設計問題に焦点を当て、skill-creator がどのような解を実装しているかを解説します。「決定性のないソフトウェア」とは何か従来のソフトウェアとの違い決定的ソフトウェア（従来）: 入力 A → 常に出力 X 入力 B → 常に出力 Y → 「2 + 2 = 4」を assert できる非決定的ソフトウェア（LLM ベース）: 入力 A → 出力 X1, X2, X3...（毎回異なる）入力 B → 出力 Y1, Y2, Y3...（毎回異なる） → 「正解」が一意に定まらない LLM の出力は確率的です。同じプロンプトを送っても、temperature やサンプリングの影響で異なる結果が返ります。従来の assertEqual(expected, actual) というテスト手法が通用しない世界です。 ...

「テスト書いて」と「テスト駆動で実装して」は全く別物 — AI×TDD で品質が劇的に変わる構造的理由

「テスト書いて」と「テスト駆動で実装して」は全く別物 — AI×TDD で品質が劇的に変わる構造的理由 @neurostack_0001 氏のポストが、AI にテストを書かせる際の決定的な違いを指摘し、大きな反響を呼んでいます（いいね 267、ブックマーク 222）。 3ヶ月AIにテストコード書かせてわかったこと。「テスト書いて」と「テスト駆動で実装して」は全く別物だった。 3ヶ月間の実体験から導き出された結論は明快です。AI に「テストを書いて」と頼むのと「テスト駆動で実装して」と頼むのでは、出力されるテストの品質が根本的に異なる。本記事では、なぜこの違いが生まれるのか、その構造的な理由と実践的なワークフローを解説します。「テスト書いて」が失敗する構造テスト後付けバイアスポスト主が最初に経験した失敗パターンは、多くの開発者に共通するものです。最初はClaude Codeに「この関数のテスト書いて」と頼んでた。構文は完璧。でも実行すると半分以上落ちる。テスト対象もモックしてたり、存在しないメソッド呼んでたり。「テストっぽいもの」を量産してただけ。この問題はテスト後付けバイアスと呼ばれる LLM の構造的な弱点に起因します。LLM が実装コードを見てからテストを生成する場合、テストは「コードが何をすべきか」ではなく「コードが何をしているか」を検証するものになりがちです。具体的に発生する問題は以下の通りです。問題説明テスト対象のモック化テストすべき関数自体をモックしてしまい、実際のロジックを検証していない存在しないメソッド呼び出し LLM のハルシネーションにより、実在しない API やメソッドをテストで使用する実装への密結合内部実装の詳細に依存するテストが生成され、リファクタリングで壊れる網羅性の欠如エッジケースや異常系のテストが不足し、正常系のみカバーするなぜ LLM は「テストっぽいもの」を量産するのか Codemanship の記事が、この問題の本質を指摘しています。 The more things we ask models to pay attention to, the less able they are to pay attention to any of them. LLM は「次の最も確率の高いトークン」を予測する仕組みです。既存の実装コードをコンテキストに含めてテストを生成すると、モデルは実装の構造を模倣したテストを生成します。テストとしての妥当性ではなく、「テストとして見た目がそれらしいもの」を出力するのです。これは LLM の根本的な限界であり、プロンプトの工夫だけでは解決できません。「テスト駆動で実装して」が品質を変える理由テストファーストが生む構造的な違いポスト主が発見した転機は、TDD のループを AI 自身にやらせることでした。 ...

リクルート新卒研修の React 資料が「無料で最高の教材」と言われる理由

リクルート新卒研修の React 資料が「無料で最高の教材」と言われる理由 sigumataityouda 氏のポストが、リクルートの新卒研修資料を「React を語る上で欠かせないもの」「完成度が非常に高い」と紹介しています。リクルートは 2017 年から毎年、新卒エンジニア向け研修資料を無料公開しており、React 研修資料は特に業界で高く評価されています。 React語る上で欠かせないものとしてリクルートの新卒研修資料というのもがある。完成度が非常に高い。リクルートの React 研修資料とは React 研修 (2024) は、リクルートのエンジニアコース新卒研修「BootCamp」で使われている講義資料です。約 170 スライド以上で構成され、Speaker Deck で無料公開されています。研修の位置づけリクルートの新卒エンジニアは配属前に約 3 ヶ月間の BootCamp を受講します。2024 年度は 24 講座以上が開講されており、React 研修はフロントエンド技術スタックの中核として位置づけられています。研修カテゴリ主な講座フロントエンド JavaScript、TypeScript、React、Next.js バックエンドデータベース設計、API 設計品質・テストテスト駆動開発（講師: t_wada 氏）セキュリティセキュリティ演習 AI テキスト生成 AI 活用マインドセットソフトウェアエンジニアとしての姿勢と心構え最初の講座「ソフトウェアエンジニアとしての姿勢と心構え」は、技術顧問の t_wada 氏が担当し、「技術の学び方を学ぶ」ことに重点を置いています。資料の構成 React 研修資料は 5 つのセクションで構成されています。 1. Web アプリ開発の変遷 React を学ぶ前に、Web アプリケーション開発がどう進化してきたかを整理します。世代アーキテクチャ特徴第 1 世代 MPA（クラシック SSR）サーバーが HTML を生成、ページ遷移ごとにリロード第 2 世代 MPA + jQuery DOM 操作で部分的な動的 UI を実現第 3 世代 SPA（CSR のみ）クライアントで描画、リッチな UX 第 4 世代 SPA（CSR + 事前レンダリング） SSR / SSG で初期表示を高速化この変遷を理解することで、「なぜ React が必要になったのか」という文脈が掴めます。jQuery 時代の命令的 UI と React の宣言的 UI の違いを、歴史的な流れの中で説明しているのが特徴です。 ...