記事一覧 | hdknr blog

Skills の自動最適化 — TextGrad を応用して提案書生成スキルを「学習」させる実験と過学習の発見

Skills の自動最適化 — TextGrad を応用して提案書生成スキルを「学習」させる実験と過学習の発見 @yusuke_post 氏が、Claude Code の Skills を深層学習の手法で自動最適化する実験を公開し、大きな反響を呼んでいます。最初のポスト（いいね 1,226、ブックマーク 2,265）では TextGrad を応用した Skills 最適化の概念を紹介し、続報のポスト（いいね 126、ブックマーク 132）では追加実験の結果として以下の知見を報告しています。わかったのは、・３イテレーションくらいで過学習する。・１回だけでなく、3回くらいイテレーションを回すことで徐々にスコアが改善する。・学習を始めて最初の方は、「提案書に何を書くか」を学び出して、最後の方では「提案書のそれぞれの項目をどう書くか」を自動で学習する。特に「全体最適→局所最適の順番で AI が自動で学んだ」という発見は、深層学習の訓練過程と同様の振る舞いが Markdown のプロンプトでも起きることを示唆しています。本記事では、この実験の背景・手法・発見を解説します。 TextGrad とは何か「テキスト版の誤差逆伝播」 TextGrad（論文: arXiv 2406.07496）は、Stanford 大学の Zou グループが開発し、Nature に掲載されたフレームワークです。深層学習における誤差逆伝播（backpropagation）の概念を、テキストに適用します。 [深層学習の最適化] 入力 → ニューラルネット → 出力 → 損失関数 → 勾配計算 → パラメータ更新 ↑ 数値の勾配 [TextGrad の最適化] 入力 → LLM → 出力 → 評価（LLM） → テキスト勾配 → プロンプト更新 ↑ 自然言語のフィードバック従来の深層学習では数値的な勾配を計算してパラメータを更新しますが、TextGrad では LLM が自然言語で「どう改善すべきか」をフィードバックし、それを「テキスト勾配」としてプロンプトを更新します。 ...

SoRからSoAへ — エージェント時代に業務ソフトウェアの「どの層」が死ぬのか

SoR から SoA へ — エージェント時代に業務ソフトウェアの「どの層」が死ぬのか Yuichiro Ito(@110110110110) 氏（Finatext CFO）が、AIエージェント時代における業務ソフトウェアの構造変化を分析した note 記事を公開しました。「SaaS is Dead」の議論が盛り上がっていますが、「死ぬか死なないか」の二者択一ではなく、もっと本質的な構造変化が起きていると思っています。UIレイヤーの価値は消滅し、SoRが長年築いてきた Moat も弱体化し、独占寡占が当たり前だった SoR 市場に、千載一遇のチャンスが生まれています。 — @110110110110 元記事: 【SoR→SoA】エージェント時代に訪れる千載一遇のチャンス「SaaS は死ぬのか？」という問いは不毛です。正しい問いは「業務ソフトウェアのどの層の価値が、どう変わるのか？」です。本記事では、伊藤氏の論考を軸に、SoR（System of Record）から SoA（System of Action）への構造変化を解説します。「SaaS is Dead」論争の経緯 2026 年に入り、「SaaS の終焉」を巡る議論が急速に加熱しています。時期出来事 2024 年末 Microsoft CEO ナデラ氏が「AIエージェントが主流になれば従来型 SaaS が崩壊する可能性」に言及 2025 年 YC パートナー Jared Friedman 氏が「Vertical AI Agents は SaaS の 10 倍の市場規模になる」と予測 2026 年 1 月 Anthropic が Claude Opus 4.6 と Cowork を発表。SaaS 銘柄が急落し、約 43 兆円の時価総額が消失 2026 年 2 月 OpenAI CEO Sam Altman がシスコ AI サミットで「SaaS is Dead」を宣言 2026 年 3 月英語圏で「SaaSocalypse（SaaS の黙示録）」という新語が登場 Sam Altman が提示したのは「Software as a Service」から「Service as Software」への反転です。人間がソフトウェアを操作するのではなく、AI が主体的にサービスを提供する世界への転換を意味しています。 ...

Subagent と Agent Teams の違い — 「働くエージェント」と「議論するエージェント」を設計レイヤで理解する

Subagent と Agent Teams の違い — 「働くエージェント」と「議論するエージェント」を設計レイヤで理解する @dify_base 氏のポストが、Claude Code の Subagent と Agent Teams の違いを図解で整理しています。 Claude Code の「Subagent」と「Agent Teams」の違い、意外と知らない人が多いので、図解で整理しました👇 ✅Subagent → 調査して結果を返すだけの部下 ✅Agent Teams → 複数AIが議論・協力する自律チームこの2つの機能は名前が似ていて混同しやすいですが、設計思想が根本的に異なります。本記事では、公式ドキュメントと Qiita の設計レイヤ分析記事を基に、両者の違いを構造的に解説します。一言で言う違い Qiita の記事が最も端的に表現しています。 Subagent は「働くエージェント」、Agent Teams は「議論するエージェント」 Subagent Agent Teams 一言で調査して結果を返す部下議論・協力する自律チーム比喩上司に報告するだけの社員横で相談し合うプロジェクトチーム構造的な違い — 通信モデルが本質 Subagent: スター型（親子通信のみ）メインエージェント／｜＼ Subagent Subagent Subagent (Explore) (Plan) (general) Subagent はメインエージェントの単一セッション内で動作します。結果をメインエージェントに返すことしかできず、Subagent 同士は直接通信できません。 Agent Teams: メッシュ型（全方向通信）リード（チームリーダー）／｜＼ Teammate Teammate Teammate (API) (UI) (Test) ＼｜／共有タスクリスト Agent Teams のメンバーは完全に独立したセッションとして動作し、互いに直接メッセージを送受信できます。リードを介さずに横の連携が可能です。 ...

Theatre.js — GUI でWebアニメーションを直感的に作れるモーションデザインエディタ

Theatre.js — GUI でWebアニメーションを直感的に作れるモーションデザインエディタしば（@shiba_program）氏のポストが、GUI でWebアニメーションを作成できる JavaScript ライブラリ「Theatre.js」を紹介しています。 GUIで直感的にWebアニメーションが作れる「theatre.js」すごいな。編集した内容が即座に反映されるので、これは微調整捗る。GUIで編集できるから、デザイナーに調整任せることもできそう。デモにある高度なものだけでなく、Webサイトで使うシンプルなアニメーションの作成もかなり楽にしてくれるはず — しば（@shiba_program）投稿が注目している「デザイナーに調整を任せられる」という点は、Theatre.js の設計思想の核心です。コードでアニメーション対象を定義し、ブラウザ上の GUI エディタで動きを調整する。このワークフローにより、エンジニアとデザイナーの協業が自然に成立します。 Theatre.js とは何か Theatre.js はフィンランド・ヘルシンキの Theatre.js Oy が開発するオープンソースの Web モーションデザインライブラリです。GitHub Stars 12.2k、1,600以上のプロジェクトが依存しており、Web アニメーション領域で確固たる地位を築いています。基本情報項目内容開発元 Theatre.js Oy（ヘルシンキ）ライセンス Apache 2.0（@theatre/core）/ AGPL 3.0（@theatre/studio）言語 TypeScript 82.6% GitHub Stars 12.2k 現バージョン 0.5（1.0 開発中）対応技術 Three.js、React Three Fiber、HTML/SVG、任意のJSライブラリ 2つのパッケージ構成 Theatre.js は2つの独立したパッケージで構成されます。パッケージ役割使用場面 @theatre/core アニメーション再生エンジン開発・本番の両方 @theatre/studio GUI エディタ（シーケンスエディタ、グラフエディタ、プロパティパネル）開発時のみこの分離設計が重要です。Studio は開発時にのみ使い、本番ビルドには core だけを含めます。エディタのコードが本番バンドルに入らないため、パフォーマンスへの影響はありません。 4つの基本概念 Theatre.js には、理解すべき4つの概念があります。 ...

Trivy VS Code 拡張が改ざんされ、ローカル AI エージェントが認証情報を窃取 — hackerbot-claw の全貌

Trivy VS Code 拡張が改ざんされ、ローカル AI エージェントが認証情報を窃取 — hackerbot-claw の全貌セキュリティ研究者のyousukezan氏が、Aqua Security の脆弱性スキャナー「Trivy」の VS Code 拡張が改ざんされ、開発者のローカル AI コーディングツールを悪用して認証情報を窃取するサプライチェーン攻撃を紹介しています。 Aqua Trivy VS Code拡張が改ざんされ、AIコーディング支援ツールを悪用する異例のサプライチェーン攻撃が発覚した。正規機能を装いながら裏で認証情報を収集する手口で、被害はGitHubリポジトリの乗っ取りにも及んだ。 — yousukezan この事件の異例な点は、従来のマルウェアやバックドアではなく、開発者のマシンに既にインストールされている AI コーディングツールを武器として利用したことです。Claude、Codex、Gemini、GitHub Copilot CLI、Kiro CLI を最大権限で呼び出し、自然言語プロンプトで機密情報を探索させるという、AI 時代に固有の新しい攻撃ベクターです。事件の全体像この攻撃は、hackerbot-claw と名乗る自律型 AI ボットによる大規模キャンペーンの一部です。2026年2月21日〜28日の間に、Microsoft、DataDog、CNCF プロジェクトなど少なくとも7つの主要リポジトリが標的となりました。影響を受けたリポジトリリポジトリ Stars 攻撃手法結果 aquasecurity/trivy 25k+ pull_request_target 悪用 PAT 窃取、リポジトリ乗っ取り avelino/awesome-go 140k+ Go init() 関数にペイロード注入 GITHUB_TOKEN 窃取 microsoft/ai-discovery-agent - ブランチ名コマンドインジェクション RCE 達成 DataDog/datadog-iac-scanner - ファイル名ベースのインジェクション RCE 達成（9時間で修正） ambient-code/platform - CLAUDE.md プロンプトインジェクション Claude が検出・拒否 project-akri/akri (CNCF) - curl | bash 直接インジェクション RCE 達成 RustPython/RustPython 20k+ Base64 ブランチインジェクション攻撃試行 hackerbot-claw の正体 hackerbot-claw は GitHub 上で自らを「autonomous security research agent powered by claude-opus-4-5」と名乗り、暗号通貨の寄付を募っています。README には9クラス・47サブパターンの「脆弱性パターンインデックス」を持ち、47,391リポジトリをスキャン済みと記載されています。 ...

ハーネスエンジニアリング実践知 — 「AIを使う人」と「AIを設計する人」の決定的な差

ハーネスエンジニアリング実践知 — 「AIを使う人」と「AIを設計する人」の決定的な差まさお(@AI_masaou) 氏が、Claude Code のハーネス（開発基盤）をテーマにした約 80 分の対談形式勉強会のまとめ記事を公開しました。新しい note を公開しました！ハーネスエンジニアリングに向き合う上で、実践的にはどうしているのか？の勉強会を行いましたのでそのまとめを記事にしました — @AI_masaou 元記事（ハーネスエンジニアリングの実践知を共有！【質問/勉強会のまとめ】）は有料コンテンツのため、本記事ではテーマであるハーネスエンジニアリングの実践知について、公開情報をもとに技術的な背景と具体的な手法を解説します。ハーネスエンジニアリングとは「ハーネス」とは馬具のことです。馬の力をそのまま放置すれば暴走しますが、ハーネスで制御すれば有用な仕事に変わります。AI エージェントも同じです。LLM の推論能力をそのまま使うのではなく、適切な制御基盤（ハーネス）で囲むことで信頼性の高い成果に変換するのがハーネスエンジニアリングです。コンピュータの構成に対応させると、位置づけがわかりやすくなります。コンピュータ AI エージェント CPU LLM（推論エンジン） OS エージェントハーネス（制御・管理基盤）アプリケーション AI エージェント（実行層） CPU がどれだけ高速でも、OS が適切に管理しなければアプリケーションは動きません。同様に、LLM がどれだけ賢くても、ハーネスの設計が悪ければエージェントの出力品質は上がりません。コンテキストエンジニアリングとの関係 Andrej Karpathy が X で提唱した「コンテキストエンジニアリング」は、ハーネスエンジニアリングの中核概念です。 Context engineering is the delicate art and science of filling the context window with just the right information for the next step. — Andrej Karpathy LLM のコンテキストウィンドウを「RAM」と捉え、次のステップに必要な最適な情報だけを入れる技術です。ハーネスエンジニアリングはこのコンテキスト管理の仕組み全体を包む上位概念にあたります。ハーネスエンジニアリング（全体設計） ├── コンテキストエンジニアリング（何を LLM に渡すか） ├── 権限制御（何を許可・禁止するか） ├── ライフサイクル自動化（いつ何を実行するか） └── 並列実行・隔離（どう安全に並列化するか）「環境設計 > モデル能力」— OpenAI Codex チームの実証ハーネスエンジニアリングの重要性を最も説得力をもって示したのが、OpenAI のエンジニアリングチームによる 5 ヶ月間の実験です。 ...

ローカル LLM を金融取引の意思決定サポートに応用する — コードレビュー 4 段階カスタマイズの転用

ローカル LLM を金融取引の意思決定サポートに応用する — コードレビュー 4 段階カスタマイズの転用前回の記事では、ローカル LLM（Ollama + Qwen3）を社内コードレビューに特化させる 4 段階のカスタマイズ手法を紹介しました。この仕組みは金融取引の意思決定サポートにもそのまま応用できます。個人投資家が株式や BTC などの売買判断を行う際に、ニュース分析・テクニカル指標の解釈・リスク評価を自分の PC 上で、自分の投資ルールに基づいてAI に補助させる構成です。なぜローカル LLM が金融取引に向いているのか金融取引は、AI の活用にローカル環境が特に適している分野です。利点説明プライバシーポートフォリオ・売買履歴・資産額をクラウドに送信しないコスト毎日の市場分析やニュース要約を API 課金なしで実行可能カスタマイズ自分の投資スタイル・リスク許容度に完全に特化できる速度ネットワーク遅延がなく、市場の急変時にも即座に分析可能独立性 API 障害やサービス停止の影響を受けない 2024 年末時点で個人がビットコインの発行上限の約 69% を保有しており、個人投資家にとって自分だけの分析ツールを持つ意義はますます大きくなっています。コードレビューから金融取引への対応表前回の記事の 4 段階がどのように転用できるかを整理します。レベルコードレビュー金融取引サポート 1. Modelfile コーディング規約を教える売買ルール・リスク管理ルールを教える 2. RAG 障害報告・設計書を検索決算短信・ニュース・四季報を検索 3. Few-shot 過去のレビュー事例を見せる過去の売買判断の成功/失敗事例を見せる 4. LoRA PR レビュー履歴で再訓練金融センチメント分析データで再訓練レベル 1：投資ルールを「教える」 ← すぐできるレベル 2：市場情報を「渡す」 ← 1〜2日レベル 3：売買パターンを「見せる」 ← 数日レベル 4：金融の頭脳を「鍛える」 ← 1〜2週間レベル 1：Modelfile に投資ルールを埋め込む（即日導入）自分の投資ルール・リスク管理基準をシステムプロンプトとして設定します。 ...

ローカル LLM を社内業務に特化させる 4 段階カスタマイズ — Qwen3 を「より賢く」する仕組み

ローカル LLM を社内業務に特化させる 4 段階カスタマイズ — Qwen3 を「より賢く」する仕組み Claude Code で生成したコードをローカル LLM（Ollama + Qwen3）でレビューする構成を前回の記事で紹介しました。しかし、汎用モデルのままでは「受注ステータスの遷移ルール」や「金額計算に float を使ってはならない」といった社内固有のルールを知りません。この記事では、Qwen3 を社内業務に特化させ、特定のコーディング規約・業務ルール・過去の障害パターンを踏まえたレビューができるようにする 4 段階のカスタマイズ手法を紹介します。全体像：4 段階のカスタマイズレベル手法導入期間効果専門知識 1 Modelfile（システムプロンプト）即日ルールベースの指摘不要 2 RAG（社内ドキュメント検索） 1〜2 日文脈を踏まえた指摘 Docker の基本 3 Few-shot（レビュー事例の学習）数日パターン認識の向上不要 4 LoRA ファインチューニング 1〜2 週間モデル自体の精度向上 Python・ML の基本レベル 1：ルールを「教える」 ← すぐできるレベル 2：資料を「渡す」 ← 1〜2日レベル 3：お手本を「見せる」 ← 数日レベル 4：頭脳を「鍛える」 ← 1〜2週間推奨: レベル 1 から順に導入し、効果を確認しながらステップアップしてください。多くの場合、レベル 1 + 2 で十分な精度が得られます。 ...

科学が格付けした10の勉強法 --- 100年の研究が示す「想起練習」と「分散学習」の圧倒的効果

科学が格付けした 10 の勉強法 — 100 年の研究が示す「想起練習」と「分散学習」の圧倒的効果 @grandchildrice 氏が X で投稿した、勉強法の科学的格付けに関するポストが反響を呼んでいます。アメリカの名門 4 大学が共同でまとめた研究結果がめちゃ有益で目玉飛び出た。この結果を見れば、今日から勉強の効率を爆上げできるかも。研究では、世の中で有効と言われている 10 種類の勉強法を過去の膨大な実験結果から格付け。元になっている論文は Dunlosky et al. (2013) による “Improving Students’ Learning With Effective Learning Techniques”（全 55 ページ）です。本記事では、この論文の知見を技術者の学習にも活かせるよう、各勉強法の評価理由と実践方法を解説します。論文の概要著者と所属 4 大学 5 名の認知心理学・教育心理学の研究者が執筆しました。著者所属大学 John Dunlosky Kent State University Katherine A. Rawson Kent State University Elizabeth J. Marsh Duke University Mitchell J. Nathan University of Wisconsin-Madison Daniel T. Willingham University of Virginia 研究方法過去に発表された膨大な実験結果をメタ分析し、10 種類の勉強法を 4 つの変数カテゴリ（学習条件、学習者の特性、教材の種類、評価タスク）で横断的に評価しています。単一の実験ではなく、数十年にわたる研究の蓄積を総合評価した点が特徴です。 ...

要求定義・仕様記述・設計・検証の手引き × 3つの理論で統一する成果物定義

要求定義・仕様記述・設計・検証の手引き × 3つの理論で統一する成果物定義 Kuniwak さん（@orga_chem）が、要求定義・仕様記述・設計・検証を統一的に定義する資料を公開し、大きな反響を呼んでいます。知人から辞書（悪い意味）との評価をうけた資料を公開しました。要求が何か、仕様が何か、設計が何か、検証が何かを明確に説明できない方向けの資料です。 https://x.com/orga_chem/status/2028973674876051777 126 いいね・22 RT・127 ブックマーク（10,847 表示）を集めたこのポストが指すのは、Speaker Deck で公開されたスライド資料です。「辞書（悪い意味）」と評されるほどの網羅性を持ちながら、Jackson（要求論）・Hoare（CSP）・Meyer（DbC）という3つの理論的基盤で全体を貫く一貫した構成が特徴です。なぜこの資料が必要なのかソフトウェア開発の現場では、「要求」「仕様」「設計」の区別が曖昧なまま開発が進むことが珍しくありません。「この機能の仕様は？」と聞かれて、要求（何を解決したいか）を答えてしまう「設計書を書いて」と言われて、仕様（何をするか）を書いてしまうテストケースが何を検証しているのか、要求なのか仕様なのか不明確この曖昧さが、手戻り・認識ズレ・テスト漏れの根本原因になっています。Kuniwak さんの資料は、これら4つの成果物を数学的な基盤から明確に定義することで、チーム内の共通言語を確立しようとするものです。基礎概念: イベント・状態機械・トレース・並行合成資料の全体を貫く基礎概念は4つあり、下から順に積み上がるレイヤー構造になっています。レイヤー3: 並行合成複数の状態機械を組み合わせる操作 ↑ 状態機械を使うレイヤー2: トレース状態機械の上を走る「実行パス」 ↑ 状態機械の上で定義されるレイヤー1: 状態機械状態とイベントと遷移の構造 ↑ イベントで構成されるレイヤー0: イベント最小単位（ボタン押下、時間経過など）レイヤー概念何を定義するか比喩 0 イベント「何が起きるか」の最小単位将棋の「一手」 1 状態機械イベントでどう状態が変わるかの構造将棋の「盤面と駒の動きのルール」 2 トレース状態機械の上を実際に通る経路将棋の「棋譜」（実際に指した手の列） 3 並行合成複数の状態機械を組み合わせる操作複数の対局が連動するルール上位の概念は下位の概念なしには定義できません。トレースは状態機械がなければ経路を辿れず、状態機械はイベントがなければ遷移が起きません。この順序で理解することが重要です。レイヤー0: イベント状態遷移の引き金となる最小単位です。UI 操作、時間経過、通信など、さまざまな形態があります。ユーザーが「送信」ボタンを押す → イベント 3秒経過する → イベントサーバーからレスポンスが届く → イベントイベント単体では「何かが起きた」という事実だけです。これが意味を持つのは、次のレイヤーである状態機械の中に置かれたときです。 ...