Claude Code の「Dynamic Workflows」を冷静に検証 — Opus 4.8 + /ultracode で本当に変わること・誇張されていること

はじめに X(旧 Twitter)でこんな投稿が流れてきました。 【衝撃】Claude Code でとんでもないモードが解禁👀 Opus 4.8 + /ultracode で有効になる新機能「Dynamic Workflows」! ・タスク難易度を自動検知 ・オーケストレーション用スクリプトを生成 ・複数エージェントに役割分担 ・検証フローまで自動構築 ・エージェントスウォームで並列実行 つまり開発フローの全工程を Claude が自走。 「人間はゴールを投げるだけ、Claude Code が PM + 開発チームを自動編成して並列実行する」——確かにインパクトのある話です。 ただ、こういうバイラル投稿は機能を過度に一般化しがちです。本記事では、/ultracode と Dynamic Workflows の実体を公式ドキュメントと実機の挙動から整理します。そのうえで「本当に変わること」と「誇張されていること」を切り分けます。結論から言うと、機能はほぼすべて実在しますが、“完全自動” ではありません。 Dynamic Workflows とは何か Dynamic Workflows は、Claude Code が複数のサブエージェントを JavaScript スクリプトで決定論的にオーケストレーションする機能です。現在は research preview(研究プレビュー)として提供されています。 ポイントは「決定論的」という部分です。通常のエージェントはモデルが自分の判断で次の手を決めますが、Workflow ではループ・分岐・ファンアウト(並列展開)といった制御フローをスクリプトで明示的に記述します。「何を並列にやるか」「何を検証するか」「何を統合するか」を人間(あるいは Claude)がコードとして固定できるわけです。 スクリプトは export const meta = {...} で始まり、本体で以下のような構成要素を使います。 phase(title) — フェーズ(工程)を区切る agent(prompt, opts) — サブエージェントを 1 体起動する parallel(thunks) — 複数タスクを並列実行する(全完了を待つバリア) pipeline(items, stage1, stage2, ...) — 各アイテムを複数ステージに流す(ステージ間でバリアなし) これらは実際の Workflow ツールが提供する API です。最小の例を見てみましょう。 ...

2026年5月29日 · 2 分

AIエージェント時代に再注目される FDE(Forward Deployed Engineer)— 前線配備型エンジニアという働き方

AIエージェントが業務システムに本格導入される時代に入り、「FDE(Forward Deployed Engineer)」というエンジニア職種が改めて注目を集めています。AIエージェントを現場の業務フローに組み込み、「成果が出るまで」を一気通貫で推進する役割です。なぜ今このモデルが再評価されているのか、その役割と重要性を整理します。 FDE(Forward Deployed Engineer)とは FDEは「フォワード・デプロイド・エンジニア(前線配備型エンジニア)」の略です。Palantir が2011年に考案したモデルで、エンジニアを顧客環境に直接埋め込む形で生まれました。AIエージェントの実用化が加速する中で、この働き方が改めて脚光を浴びています。 役割の核心 FDEは開発拠点に留まらず、顧客や社内の業務現場に深く入り込みます。AIエージェントを実際の業務フローに組み込み、「成果が出るまで」を一気通貫で推進することが役割の核心です。 従来のソフトウェアエンジニアとの違いは「配備場所」にあります。FDEは現場の業務担当者と並走しながらAIシステムを実装・調整します。 なぜ今重要なのか AIエージェントは「自律的にタスクを推論して実行する」という強力な特性を持っています。しかし、以下のような課題から、現場での機能不全が起きがちです。 業務ルールの複雑性: 現場の暗黙知や例外ルールをAIに正しく反映するのは困難 人間との役割分担設計: どこまでをAIに任せ、どこから人間が承認・介入するかの線引き 段階的な信頼構築: いきなり全自動化するのではなく、徐々にAIへの委任範囲を広げるプロセス管理 FDEは「現場とAIエージェントの橋渡し」を担うコア人材として必要とされています。技術力だけでなく、業務理解力・コミュニケーション力・推進力を兼ね備えることが求められます。 なぜAIではとくに「現場常駐型」が要るのか 従来の業務システムは「仕様通りに動くこと」が正解でした。これに対しAIは、データの質や現場の環境条件に大きく依存するという性質を持ちます。 現場の熟練者が持つ暗黙知はデータ化されていない 需要予測AIは入力データの欠損に左右される 画像認識(カメラ)AIは照明などの環境条件で精度が変わる これらの要素は、会議室や開発拠点にいるだけでは把握できません。FDEは現場に身を置くことで、開発と現場のあいだに生じる時間差・認識差を最小化します。違和感が出たらその場で修正し、翌日には改善版を届ける——この高速なフィードバックループこそが、AIを「実験」から「現場で使える戦力」へと進化させます。 従来のITコンサル・SEとの違い AI推進体制を検討すると、FDEはITコンサルタントやシステムエンジニア(SE)と混同されがちです。しかし主戦場も付加価値も異なります。AIプロジェクトでは「最初から正解の仕様が存在しない(都度、仕様が変わっていく)」ことが一般的で、FDEは仮説検証を短いサイクルで回しながら最適解を探索する点が決定的に違います。 観点 ITコンサルタント 従来のSE/ベンダー FDE 主な役割 戦略立案・要件定義 仕様書に基づく開発・保守 現場課題の特定と即時実装・定着 主戦場 会議室(経営・管理層) 開発拠点(リモート中心) 現場(フロントライン) 開発手法 設計書作成が中心 ウォーターフォール型 超高速アジャイル・プロトタイピング 付加価値 論理的な正解の提示 安定したシステムの構築 現場での実用性とROIの最大化 FDEが現場で担うこと AIエージェント導入の現場では、FDEは次のような多面的な役割をこなします。 フェーズ FDEの仕事 要件把握 現場に入り込み、暗黙知や例外ルールを含む業務フローを理解する 実装・調整 AIエージェントを実際の業務システムに組み込み、現場のデータで動かす ガードレール設計 どこから人間が承認・介入するか(Human-in-the-loop)の線引きを設計する 信頼構築 委任範囲を段階的に広げ、現場が安心してAIを使える状態をつくる ポイントは、単にAIにタスクを委任して終わりにしないことです。人間が最終判断するガードレールを設計し、職員・現場担当者が自らAIワークフローを調整できる仕組みを残すことが、定着するAIエージェント導入の条件になります。 高リスク環境ほど価値が出る 審査・規制・安全監視のような「間違いが許されない」高リスク業務ほど、いきなりの全自動化はできません。だからこそ、現場の複雑なルールを理解しながらAIを少しずつ組み込み、人間の監視を組み込んだ形で運用に乗せていくFDEの役割が効いてきます。段階的な導入とガードレール設計こそが、こうした環境でのAI活用を成功させる鍵です。 なぜ今、FDEが求められるのか AI投資が活発化するなか、FDEが戦略的に重要視される理由は大きく3つあります。 「使われないAI」を防ぎ、ROIを最大化する: AI導入の最大リスクは、数千万円規模の投資をしても現場で使われなくなることです。「入力が煩雑」「通知が遅い」「画面が見づらい」——こうした小さな不満がAI定着を阻みます。FDEは現場ユーザーの声を即座に反映し、UI/UXをその場で改善します。 データ品質の課題を現場で解決する: AIの精度はデータに依存しますが、基幹システムのデータが現場の実態を正確に反映していないケースは少なくありません。FDEはデータ生成のプロセスを現場で確認し、必要なら収集方法や入力フロー自体を再設計します。 意思決定から実装までのリードタイムを短縮する: 「現場要望 → 実装 → テスト → 改善」のサイクルが、数週間単位から数日、場合によっては数時間単位へと短縮されます。このスピードがDX推進の成否を左右します。 FDEに求められる3つのスキル FDEとして成果を出すには、技術と業務をまたぐ複合的な力が求められます。 ...

2026年5月26日 · 1 分

「同僚.skill」が本当に変えるのは引き継ぎではない — 企業は「判断様式」を資産化し始める

GitHub で急速に広がっている colleague-skill(titanwings/colleague-skill)というプロジェクトがある。「辞めた同僚を AI で再現する」という見た目のインパクトだけが先行しがちだが、実装を読むと本質はもっと実務的だ。このプロジェクトが企業と個人に突きつけているのは、**「判断様式そのものを組織資産にできる時代が来た」**という問いだ。 colleague-skill とは何か titanwings/colleague-skill は、退職した同僚・前任者・メンターの仕事の進め方や話し方を、AI エージェントが呼び出せる Skill として保存するプロジェクトだ。 2026年5月時点で 18,000 stars 超、1,800 forks という数字が、この関心の高さを物語っている。 ポイントは新しいモデルを訓練しているわけではないことだ。人の暗黙知・レビュー癖・判断基準・口調を、Claude Code などで即座に呼び出せるパッケージに変換している。引き継ぎで失われがちな仕事の文脈を、実際に動く形で残すことが目的だ。 入力できるもの Feishu・DingTalk・Slack・WeChat の会話履歴、PDF、画像、メール、Markdown、手入力テキストなど幅広いソースに対応している。 Claude Code への組み込み インストールは軽量だ。 1 2 3 # ターミナルで実行 cd ~/.claude/skills git clone https://github.com/titanwings/colleague-skill . その後、Claude Code 上でスラッシュコマンドを実行する。 /create-colleague .claude/skills/ に配置して /create-colleague を実行するだけで、対話形式でスキルが生成される。 二層構造の設計:Work Skill と Persona README の設計で最も重要なのは、生成物が二つのレイヤーに分かれていることだ。 レイヤー 内容 Work Skill 担当システム、技術スタック、レビュー観点、文書作法、運用フロー、経験知 Persona 話し方、優先順位、判断癖、対人スタイル、地雷 実行順序まで定義されている。 ...

2026年5月21日 · 3 分

OpenHuman — 完全ローカルで動くパーソナルAIアシスタント:プライバシー最優先でChatGPT級の体験を自分のPCで

2026-05-27 追記: 実際にインストールしてみたところ、デフォルトのままでは TinyHumans へのサブスク課金(=有料アカウント)が必要なことが判明した。GPL-3 のオープンソースなのになぜ有料なのか、本記事に「なぜ TinyHumans への課金が必要なのか」セクションを追加した。「完全ローカル」を額面どおりに実現するための回避ルートも併記している。 「クラウドAIに自分の悩みを打ち明けるのが不安」という声をよく聞く。仕事の機密、家族の話、健康上の悩み——ChatGPTに投げてはみるものの、その会話がサーバーに残り続けることへの抵抗感は根強い。 そこに登場したのが OpenHuman だ。GitHubスター数2.7万を超え、週に1,000以上のペースで増え続けるこのプロジェクトは、「ChatGPT級のAIを完全にローカルで動かす」という問いへの実践的な回答を提供している。 OpenHumanとは OpenHuman は、TinyHumans AIが開発するオープンソースのエージェント型AIアシスタントだ。Rustをコアに持ち、デスクトップアプリとして動作する。 公式の説明は簡潔にまとめられている。 Your Personal AI super intelligence. Private, Simple and extremely powerful. ポイントは3点だ。 Memory Tree による長期記憶 Obsidianスタイルのローカルナレッジベース 118以上のサービス連携 これらを組み合わせることで、「インストールから数分でユーザーを知り尽くしたエージェント」を目指している。 なぜ「ローカルAI」が重要なのか ChatGPTをはじめとするクラウドAIの課題は、会話が外部サーバーへ送信される点にある。個人情報保護の観点から問題となるだけでなく、企業での利用では情報漏洩リスクが伴う。 OpenHumanが解決しようとしているのはこの点だ。 会話を外に出さない構成が選べる — ローカルLLM(Ollama / LM Studio経由)を選択すれば推論まで自機で完結する データは自分のPCに保存される — Memory Tree DB と Markdown Vault はローカルファイルとして残る 日本語README完備 — 日本語ユーザーへの配慮も行き届いている Rust製で爆速 — コアがRustで書かれており、動作が軽快 ただし注意点がある。デフォルト構成では「サインイン」「モデルルーティング」「Web検索プロキシ」「Composio経由のOAuth/ツール連携」がすべてOpenHuman(TinyHumans)社のマネージドバックエンドを経由する。つまり初回起動時に TinyHumans アカウントを作って有料サブスクに入らないと、せっかくのMemory TreeもAuto-fetchも動かない。「完全オフライン」を額面どおりに実現するには、ローカルモデル+Composio直接モード+自前のWeb検索APIキー、といった追加設定が必要になる。詳細は後述する。 主な機能 Memory Tree + Obsidian Vault OpenHumanの中核機能は Memory Tree だ。接続した各種サービスから取得したデータを3,000トークン以内のMarkdownチャンクに圧縮し、SQLiteに階層的に保存する。同時に、Obsidianと互換性のある .md ファイルとしてローカルVaultへ書き出す。 ...

2026年5月20日 · 3 分

Sandcastle — AI コーディングエージェントを夜間並列実行して朝にレビューするだけにする OSS

元 Vercel エンジニアで TypeScript 専門家の Matt Pocock 氏が、AI エージェントを複数並列実行するためのオーケストレーションライブラリ Sandcastle を OSS として公開した。このツールは「夜間に 5 タスクを並列で走らせて、朝にマージレビューだけする」という AFK(Away From Keyboard)開発 を現実のワークフローとして成立させる。 Sandcastle とは Sandcastle は TypeScript ライブラリで、AI コーディングエージェントを隔離されたサンドボックスの中で動かすためのオーケストレーション基盤を提供する。 主な機能は 3 ステップ: sandcastle.run() の一行でエージェントを起動する Sandcastle がサンドボックス化とブランチ戦略を管理する エージェントが作ったコミットを自動的にマージ対象のブランチに集約する サンドボックスプロバイダー Sandcastle はプロバイダーに依存しない設計で、以下をビルトインサポートする: プロバイダー インポートパス 種別 Docker @ai-hero/sandcastle/sandboxes/docker バインドマウント Podman @ai-hero/sandcastle/sandboxes/podman バインドマウント(rootless) Vercel @ai-hero/sandcastle/sandboxes/vercel 隔離(Firecracker microVM) No-sandbox @ai-hero/sandcastle/sandboxes/no-sandbox なし(インタラクティブ専用) ローカル開発では Docker Desktop が最も一般的だ。クラウド実行には Vercel の Firecracker microVM が選択肢になる。独自のコンテナ環境に接続する場合は createBindMountSandboxProvider や createIsolatedSandboxProvider でカスタムプロバイダーを作ることもできる。 クイックスタート パッケージ名は @ai-hero/sandcastle、npm で配布されている。 ...

2026年5月1日 · 2 分

Claude Code × 1,255体のAIで歌舞伎町の夜をシミュレーション — 予算超過53.7%、ぼったくり被害23人の衝撃結果

Claude Code を使って1,255体ものAIペルソナを動かし、歌舞伎町の夜(22:00〜02:00)を丸ごとシミュレーションするという実験が話題になっています。AIエージェント研究者の「すぐる」さん(@SuguruKun_ai)が実施したこの試みは、マルチエージェントAIによる社会シミュレーションの新たな可能性を示しています。 実験の概要 実験のセットアップはシンプルながら規模が大きいものです。 使用ツール: Claude Code AIエージェント数: 1,255体 シミュレーション対象: 歌舞伎町(新宿)の夜 シミュレーション時間: 22:00〜02:00(4時間) 実行方式: 240分を1分刻みで回す(タイムステップ方式) 各AIエージェントには固有のペルソナが与えられ、「それぞれの人生を抱えて歌舞伎町を彷徨う」という設定です。観光客、ビジネスマン、地元住民など、異なる背景を持つ人物像がリアルな夜の繁華街を動き回ります。 驚きのシミュレーション結果 240分のシミュレーションを実行した結果、現実の歌舞伎町を彷彿とさせるリアルな数値が出ました: 指標 結果 予算超過率 53.7% 客引き遭遇 224件 ぼったくり被害者 23人(観光客の11.5%) 総消費額 ¥29,517,700 特に「観光客の11.5%がぼったくり被害に遭う」という数値は、現実の繁華街リスクと照らし合わせても説得力があります。予算超過率53.7%は、夜の歌舞伎町での出費が予想外に膨らみやすいという現実を的確に捉えています。 なぜこの実験が面白いのか AIエージェントによる社会現象の再現 従来の社会シミュレーションは、統計モデルやルールベースのシステムで行われてきました。しかし今回の実験では、LLM(大規模言語モデル)ベースのエージェントが「意思決定」を行います。各ペルソナが自分の「人生」に基づいて行動するため、事前にプログラムしていなかった社会現象(ぼったくりの被害パターン、予算オーバーの傾向など)が創発(個々のルールには存在しないのに全体として現れる現象)として観察されます。 スケールの壁を超えたClaude Code 1,255体のエージェントを同時に動かすには、大量の並列処理が必要です。Claude Code のエージェントオーケストレーション能力を活用することで、こうした大規模マルチエージェントシミュレーションが個人の研究レベルで実現できるようになっています。 「1分刻み」のタイムステップ設計 240分(4時間)を1分ごとに区切って処理する設計は、「リアルタイム性」よりも「因果の連鎖」を追うための工夫です。ある時間帯の客引き遭遇が、次の分の意思決定に影響を与えるという連鎖が、リアルな消費行動を生み出します。 社会シミュレーションの応用可能性 この種の実験は、歌舞伎町という特定シナリオにとどまらず、幅広い応用が考えられます: 都市計画: 新しい施設や道路が人の流れに与える影響を事前シミュレーション 防災・安全対策: 緊急時の避難行動パターンの予測 経済政策: 価格変動や規制変更が消費者行動に与える影響分析 マーケティング: 特定の顧客層がどのような意思決定プロセスを経るかの理解 技術的なポイント ペルソナ設計の重要性 1,255体のAIに「それぞれの人生」を持たせるには、多様なペルソナ定義が必要です。年齢、職業、予算感、リスク許容度、アルコール耐性など、現実の人間の多様性を反映したパラメータ設定が、シミュレーションの精度を決定します。 LLMの「常識」を活用する ルールベースのシミュレーションと異なり、LLMベースのエージェントは「客引きに声をかけられたらどうするか」という判断を、事前に全パターンを列挙しなくても処理できます。モデルが持つ常識的知識と推論能力が、複雑な社会的相互作用を自然に再現します。 まとめ Claude Code × 1,255体のAIによる歌舞伎町シミュレーションは、マルチエージェントAIが社会科学的な研究ツールとして機能することを示した好例です。現実社会のリスク分布(ぼったくり被害11.5%・予算超過53.7%)を定量的に再現した点が、この実験の最大の価値といえます。 LLMの「個々の判断能力」と「大規模並列実行」を組み合わせることで、これまで計算コストや設計コストが高すぎて実現できなかった社会シミュレーションが、個人の研究者レベルで実行可能になってきています。 元の X スレッドでは順を追った詳細解説も公開されているので、技術的な実装に興味がある方はぜひチェックしてみてください。 参照: 元ツイート: https://x.com/SuguruKun_ai/status/2048692949282889870 著者: すぐる | ChatGPTガチ勢 𝕏 (@SuguruKun_ai)

2026年4月27日 · 1 分

Claude Code で動く「SEO エージェント」が海外で大バズ — 月額 2 万円のツールをプロンプト 1 つでゼロコスト代替

海外で Claude Code 専用の「SEO エージェント」が話題になっている。月額 2 万円級の SEO ツールをサブスク不要・ゼロコストで完全代替できるという内容で、SNS では 70,000 インプレッション超・ブックマーク 1,300 件超を記録した。 何が起きているのか @ClaudeCode_love が 2026 年 4 月 26 日に投稿したツイートが発端。元ネタは @learnwithella による動画デモで、Claude Code の中だけで SEO の分析から記事生成まで全自動化する様子が紹介されている。 これまで SEO 担当者が直面してきた最大の壁は「月額課金ツールで手動分析」だった。毎月課金して CSV をダウンロードし、5 分で閉じる……そのワークフローをこのエージェントは丸ごと自動化する。 エージェントの主な機能 Google Search Console との自動連携 Google Search Console の API に接続し、自サイトのキーワード順位データを自動取得する。手動でのデータエクスポートが不要になる。 “あと一歩” キーワードの自動発見 順位 5〜20 位に入っているキーワードを抽出し、少しのコンテンツ改善でトップ 3 入りが狙えるキーワードを優先的にリストアップする。これは多くの SEO ツールが有料機能として提供している「ポジションギャップ分析」に相当する。 競合サイトの自動スクレイピング・分析 上位表示サイトを自動でクロールし、見出し構成・コンテンツ量・内部リンク構造などを分析。差分を把握したうえでコンテンツ戦略を立案する。 ブランドの声での記事自動生成 競合分析の結果をもとに、指定したブランドトーンで記事を自動生成する。生成した記事はそのまま公開フローに乗せることができる。 週次ランキング追跡・改善ループ 毎週のランキング変動を追跡し、改善アクションを自動提案するループを構成できる。一度設定すれば継続的な SEO 改善が自走する。 AI 検索への最適化 Google だけでなく、ChatGPT・Gemini・Perplexity などの AI 検索エンジンへの最適化にも対応。AI Overviews(AIO)時代のコンテンツ戦略を意識した設計になっている。 ...

2026年4月27日 · 1 分

ハーネスエンジニアリングとの向き合い方 — ルールファイルを超えて開発プロセスを設計する

2026 年 4 月、Findy が主催したオンラインイベント「Harness Engineering 入門 〜 AI エージェントを制御するアプローチ〜」が開催された。r.kagaya 氏の登壇「エージェントの開発環境を内製して気づいた『これもハーネス』」は参加者から「レベル高すぎた」と評されるほど反響を呼んだ。本記事では、r.kagaya 氏が公開した SpeakerDeck 資料「ハーネスエンジニアリングにどう向き合うか 〜ルールファイルを超えて開発プロセスを設計する〜」をもとに、ルールファイルを超えたハーネスエンジニアリングの考え方を整理する。 イベント概要 【Harness Engineering 入門】AIエージェントを制御するアプローチ(connpass #388471)は、AI エージェントによる開発が広まる中でハーネス設計がどのような意味を持つかを掘り下げるイベント。対象は AI エージェントを積極的に使っているエンジニア、チーム開発に AI を取り込もうとしているエンジニア層だ。 複数の登壇の中で r.kagaya 氏のセッションは、自社でエージェントの開発環境を内製する過程で見えてきた「これもハーネスだ」という気づきを軸に、ルールファイル設定で終わらないハーネスエンジニアリングの本質を語った。 ルールファイルから始まるハーネスエンジニアリング 多くのエンジニアがハーネスエンジニアリングを始める入り口は CLAUDE.md などのルールファイル だ。「こういうコードを書いてほしい」「このコマンドは使わないで」といった制約を自然言語で記述し、AI の振る舞いをコントロールする。 1 2 3 4 # CLAUDE.md の例 ## Bash コマンドの必須ルール - `&&` でコマンドを繋がない - `/tmp` を使わない(`.claude/temp/` を使う) この段階では「うまく動くルールを育てる」フェーズであり、試行錯誤でルールを追加・削除していく。しかし、ここで止まってしまうと 本当の意味でのハーネスエンジニアリング には到達できない。 ルールファイルの限界 ルールファイルだけに依存したアプローチには構造的な限界がある。 課題 内容 変更の影響が不透明 あるルールを変えたとき、どの程度・どの方向に結果が変わるか測定できない 劣化の検知が困難 モデルのアップデートや使い方の変化でルールの有効性が静かに落ちる 再現性の欠如 同じルールで試しても毎回違う結果が出る場合の原因特定が難しい スケールしない チームが大きくなるほど「誰がどのルールを管理しているか」が曖昧になる ルールファイルを超えた視点:開発プロセスとして設計する r.kagaya 氏が提示したのは、ハーネスエンジニアリングを「ルールを書く行為」ではなく 「開発プロセスを設計する行為」 として捉え直す考え方だ。 ...

2026年4月23日 · 1 分

エージェントハーネスとユーザーハーネス — ハーネスエンジニアリングの全体像を正しく理解する

r.kagaya 氏(@ry0_kaga、AstarMinds CTO)が Zenn に公開した記事がある。「ハーネスエンジニアリングとは何で、何ではないのか 〜作る側のハーネス、使う側のハーネス〜」という記事だ。ハーネスエンジニアリングをめぐる言葉の混乱を整理し、エージェントハーネスとユーザーハーネスという2層の区分を提示している。 CLAUDE.md や Skills を書けば「ハーネスエンジニアリングをやっている」と言える。でも、それはハーネスエンジニアリングの全体ではない。この記事ではその全体像を整理する。 そもそも「ハーネス」の定義が割れている 前提として、ハーネスエンジニアリングという言葉には統一された定義がない。同じ言葉を使いながら、各社・各人が指しているものが違う。 用語の来歴 「ハーネス」の原義は馬具だ。馬を馬車に繋ぎ、方向を制御し、力を伝達する装備。ソフトウェア文脈では 2020 年の lm-eval-harness(言語モデル評価ハーネス)が初出とされる(r.kagaya 氏による整理)。2024 年に All Hands AI / OpenHands が「エージェントハーネス」に拡張。2026 年に Mitchell Hashimoto(Terraform 創業者)が「Engineer the Harness」と命名し、OpenAI の記事で広まった。 各社の定義 誰が 何と言っているか LangChain (Vivek Trivedy) 「Agent = Model + Harness。モデルでなければハーネス」 Anthropic 「LLM を呼び出し、ツールコールをルーティングする制御ループ」 OpenAI 宣言的制約 + サンドボックス + スケーリング Böckeler / Martin Fowler サイバネティクス的制御。フィードフォワード × フィードバック Phil Schmid (Hugging Face) Model = CPU, Harness = OS Bedi (Composio CEO) 「システムエンジニアリングのサブセットに新しい名前をつけているだけ」 LangChain の「モデルでなければハーネス」は極めて広い。Anthropic の「制御ループ」はエージェント実装寄り。「そもそも新しい概念ですらない」と言う人もいる。さらにベンダー(作り手)と利用者(使い手)で意味が違うという構造的な問題もある。 ...

2026年4月23日 · 2 分

社会シミュレーション

概要 多数の AI エージェントを仮想空間で自律的に行動させ、エージェント間の相互作用から生まれる創発的な社会現象を観察・分析する研究手法。都市計画・安全保障・宇宙開発など広範な領域への応用が期待される。 仮想渋谷シミュレーション スペースデータ社(佐藤航陽氏)が取り組む事例では、AI エージェントを仮想の渋谷に解き放ち、AI 同士が自律的に飲みに行く・LINE する・遊ぶといった社会的行動を行う人工生態系を構築している。Stanford 大学の「Generative Agents」研究の大規模・都市特化版と位置づけられる。 創発の観察価値 個々のエージェントのルールは単純でも、多数が相互作用することで予測不能なパターン(創発)が生まれる: 人が集まりやすい「ホットスポット」の自然発生 情報が口コミのように広がる速度・経路の可視化 緊急事態(災害)時の群衆行動のシミュレーション 3 つの応用領域 領域 活用例 都市開発 施設建設後の人流シミュレーション、交通渋滞予測 安全保障 情報拡散・デマ・プロパガンダの影響モデリング 月面開発 閉鎖環境でのリソース配分と長期コミュニティ維持 先行研究 Generative Agents(Stanford 大、2023年): 25 体の LLM エージェントが自律的に行動する「Smallville」実験。会話・計画・記憶を持つエージェントが社会的パターンを自発的に形成することを示した。仮想渋谷シミュレーションはこの発展版と見なせる。 関連ページ AI エージェント — シミュレーションの構成単位 マルチエージェント調整パターン — 複数エージェントの協調設計 ソース記事 仮想渋谷に AI エージェントを解き放つ — 社会シミュレーションが都市・安全保障・月面開発に活きる理由 — 2026-04-15

2026年4月23日 · 1 分