Claude Code × 1,255体のAIで歌舞伎町の夜をシミュレーション — 予算超過53.7%、ぼったくり被害23人の衝撃結果

Claude Code を使って1,255体ものAIペルソナを動かし、歌舞伎町の夜(22:00〜02:00)を丸ごとシミュレーションするという実験が話題になっています。AIエージェント研究者の「すぐる」さん(@SuguruKun_ai)が実施したこの試みは、マルチエージェントAIによる社会シミュレーションの新たな可能性を示しています。 実験の概要 実験のセットアップはシンプルながら規模が大きいものです。 使用ツール: Claude Code AIエージェント数: 1,255体 シミュレーション対象: 歌舞伎町(新宿)の夜 シミュレーション時間: 22:00〜02:00(4時間) 実行方式: 240分を1分刻みで回す(タイムステップ方式) 各AIエージェントには固有のペルソナが与えられ、「それぞれの人生を抱えて歌舞伎町を彷徨う」という設定です。観光客、ビジネスマン、地元住民など、異なる背景を持つ人物像がリアルな夜の繁華街を動き回ります。 驚きのシミュレーション結果 240分のシミュレーションを実行した結果、現実の歌舞伎町を彷彿とさせるリアルな数値が出ました: 指標 結果 予算超過率 53.7% 客引き遭遇 224件 ぼったくり被害者 23人(観光客の11.5%) 総消費額 ¥29,517,700 特に「観光客の11.5%がぼったくり被害に遭う」という数値は、現実の繁華街リスクと照らし合わせても説得力があります。予算超過率53.7%は、夜の歌舞伎町での出費が予想外に膨らみやすいという現実を的確に捉えています。 なぜこの実験が面白いのか AIエージェントによる社会現象の再現 従来の社会シミュレーションは、統計モデルやルールベースのシステムで行われてきました。しかし今回の実験では、LLM(大規模言語モデル)ベースのエージェントが「意思決定」を行います。各ペルソナが自分の「人生」に基づいて行動するため、事前にプログラムしていなかった社会現象(ぼったくりの被害パターン、予算オーバーの傾向など)が創発(個々のルールには存在しないのに全体として現れる現象)として観察されます。 スケールの壁を超えたClaude Code 1,255体のエージェントを同時に動かすには、大量の並列処理が必要です。Claude Code のエージェントオーケストレーション能力を活用することで、こうした大規模マルチエージェントシミュレーションが個人の研究レベルで実現できるようになっています。 「1分刻み」のタイムステップ設計 240分(4時間)を1分ごとに区切って処理する設計は、「リアルタイム性」よりも「因果の連鎖」を追うための工夫です。ある時間帯の客引き遭遇が、次の分の意思決定に影響を与えるという連鎖が、リアルな消費行動を生み出します。 社会シミュレーションの応用可能性 この種の実験は、歌舞伎町という特定シナリオにとどまらず、幅広い応用が考えられます: 都市計画: 新しい施設や道路が人の流れに与える影響を事前シミュレーション 防災・安全対策: 緊急時の避難行動パターンの予測 経済政策: 価格変動や規制変更が消費者行動に与える影響分析 マーケティング: 特定の顧客層がどのような意思決定プロセスを経るかの理解 技術的なポイント ペルソナ設計の重要性 1,255体のAIに「それぞれの人生」を持たせるには、多様なペルソナ定義が必要です。年齢、職業、予算感、リスク許容度、アルコール耐性など、現実の人間の多様性を反映したパラメータ設定が、シミュレーションの精度を決定します。 LLMの「常識」を活用する ルールベースのシミュレーションと異なり、LLMベースのエージェントは「客引きに声をかけられたらどうするか」という判断を、事前に全パターンを列挙しなくても処理できます。モデルが持つ常識的知識と推論能力が、複雑な社会的相互作用を自然に再現します。 まとめ Claude Code × 1,255体のAIによる歌舞伎町シミュレーションは、マルチエージェントAIが社会科学的な研究ツールとして機能することを示した好例です。現実社会のリスク分布(ぼったくり被害11.5%・予算超過53.7%)を定量的に再現した点が、この実験の最大の価値といえます。 LLMの「個々の判断能力」と「大規模並列実行」を組み合わせることで、これまで計算コストや設計コストが高すぎて実現できなかった社会シミュレーションが、個人の研究者レベルで実行可能になってきています。 元の X スレッドでは順を追った詳細解説も公開されているので、技術的な実装に興味がある方はぜひチェックしてみてください。 参照: 元ツイート: https://x.com/SuguruKun_ai/status/2048692949282889870 著者: すぐる | ChatGPTガチ勢 𝕏 (@SuguruKun_ai)

2026年4月27日 · 1 分

Claude Code で動く「SEO エージェント」が海外で大バズ — 月額 2 万円のツールをプロンプト 1 つでゼロコスト代替

海外で Claude Code 専用の「SEO エージェント」が話題になっている。月額 2 万円級の SEO ツールをサブスク不要・ゼロコストで完全代替できるという内容で、SNS では 70,000 インプレッション超・ブックマーク 1,300 件超を記録した。 何が起きているのか @ClaudeCode_love が 2026 年 4 月 26 日に投稿したツイートが発端。元ネタは @learnwithella による動画デモで、Claude Code の中だけで SEO の分析から記事生成まで全自動化する様子が紹介されている。 これまで SEO 担当者が直面してきた最大の壁は「月額課金ツールで手動分析」だった。毎月課金して CSV をダウンロードし、5 分で閉じる……そのワークフローをこのエージェントは丸ごと自動化する。 エージェントの主な機能 Google Search Console との自動連携 Google Search Console の API に接続し、自サイトのキーワード順位データを自動取得する。手動でのデータエクスポートが不要になる。 “あと一歩” キーワードの自動発見 順位 5〜20 位に入っているキーワードを抽出し、少しのコンテンツ改善でトップ 3 入りが狙えるキーワードを優先的にリストアップする。これは多くの SEO ツールが有料機能として提供している「ポジションギャップ分析」に相当する。 競合サイトの自動スクレイピング・分析 上位表示サイトを自動でクロールし、見出し構成・コンテンツ量・内部リンク構造などを分析。差分を把握したうえでコンテンツ戦略を立案する。 ブランドの声での記事自動生成 競合分析の結果をもとに、指定したブランドトーンで記事を自動生成する。生成した記事はそのまま公開フローに乗せることができる。 週次ランキング追跡・改善ループ 毎週のランキング変動を追跡し、改善アクションを自動提案するループを構成できる。一度設定すれば継続的な SEO 改善が自走する。 AI 検索への最適化 Google だけでなく、ChatGPT・Gemini・Perplexity などの AI 検索エンジンへの最適化にも対応。AI Overviews(AIO)時代のコンテンツ戦略を意識した設計になっている。 ...

2026年4月27日 · 1 分

ハーネスエンジニアリングとの向き合い方 — ルールファイルを超えて開発プロセスを設計する

2026 年 4 月、Findy が主催したオンラインイベント「Harness Engineering 入門 〜 AI エージェントを制御するアプローチ〜」が開催された。r.kagaya 氏の登壇「エージェントの開発環境を内製して気づいた『これもハーネス』」は参加者から「レベル高すぎた」と評されるほど反響を呼んだ。本記事では、r.kagaya 氏が公開した SpeakerDeck 資料「ハーネスエンジニアリングにどう向き合うか 〜ルールファイルを超えて開発プロセスを設計する〜」をもとに、ルールファイルを超えたハーネスエンジニアリングの考え方を整理する。 イベント概要 【Harness Engineering 入門】AIエージェントを制御するアプローチ(connpass #388471)は、AI エージェントによる開発が広まる中でハーネス設計がどのような意味を持つかを掘り下げるイベント。対象は AI エージェントを積極的に使っているエンジニア、チーム開発に AI を取り込もうとしているエンジニア層だ。 複数の登壇の中で r.kagaya 氏のセッションは、自社でエージェントの開発環境を内製する過程で見えてきた「これもハーネスだ」という気づきを軸に、ルールファイル設定で終わらないハーネスエンジニアリングの本質を語った。 ルールファイルから始まるハーネスエンジニアリング 多くのエンジニアがハーネスエンジニアリングを始める入り口は CLAUDE.md などのルールファイル だ。「こういうコードを書いてほしい」「このコマンドは使わないで」といった制約を自然言語で記述し、AI の振る舞いをコントロールする。 1 2 3 4 # CLAUDE.md の例 ## Bash コマンドの必須ルール - `&&` でコマンドを繋がない - `/tmp` を使わない(`.claude/temp/` を使う) この段階では「うまく動くルールを育てる」フェーズであり、試行錯誤でルールを追加・削除していく。しかし、ここで止まってしまうと 本当の意味でのハーネスエンジニアリング には到達できない。 ルールファイルの限界 ルールファイルだけに依存したアプローチには構造的な限界がある。 課題 内容 変更の影響が不透明 あるルールを変えたとき、どの程度・どの方向に結果が変わるか測定できない 劣化の検知が困難 モデルのアップデートや使い方の変化でルールの有効性が静かに落ちる 再現性の欠如 同じルールで試しても毎回違う結果が出る場合の原因特定が難しい スケールしない チームが大きくなるほど「誰がどのルールを管理しているか」が曖昧になる ルールファイルを超えた視点:開発プロセスとして設計する r.kagaya 氏が提示したのは、ハーネスエンジニアリングを「ルールを書く行為」ではなく 「開発プロセスを設計する行為」 として捉え直す考え方だ。 ...

2026年4月23日 · 1 分

エージェントハーネスとユーザーハーネス — ハーネスエンジニアリングの全体像を正しく理解する

r.kagaya 氏(@ry0_kaga、AstarMinds CTO)が Zenn に公開した記事がある。「ハーネスエンジニアリングとは何で、何ではないのか 〜作る側のハーネス、使う側のハーネス〜」という記事だ。ハーネスエンジニアリングをめぐる言葉の混乱を整理し、エージェントハーネスとユーザーハーネスという2層の区分を提示している。 CLAUDE.md や Skills を書けば「ハーネスエンジニアリングをやっている」と言える。でも、それはハーネスエンジニアリングの全体ではない。この記事ではその全体像を整理する。 そもそも「ハーネス」の定義が割れている 前提として、ハーネスエンジニアリングという言葉には統一された定義がない。同じ言葉を使いながら、各社・各人が指しているものが違う。 用語の来歴 「ハーネス」の原義は馬具だ。馬を馬車に繋ぎ、方向を制御し、力を伝達する装備。ソフトウェア文脈では 2020 年の lm-eval-harness(言語モデル評価ハーネス)が初出とされる(r.kagaya 氏による整理)。2024 年に All Hands AI / OpenHands が「エージェントハーネス」に拡張。2026 年に Mitchell Hashimoto(Terraform 創業者)が「Engineer the Harness」と命名し、OpenAI の記事で広まった。 各社の定義 誰が 何と言っているか LangChain (Vivek Trivedy) 「Agent = Model + Harness。モデルでなければハーネス」 Anthropic 「LLM を呼び出し、ツールコールをルーティングする制御ループ」 OpenAI 宣言的制約 + サンドボックス + スケーリング Böckeler / Martin Fowler サイバネティクス的制御。フィードフォワード × フィードバック Phil Schmid (Hugging Face) Model = CPU, Harness = OS Bedi (Composio CEO) 「システムエンジニアリングのサブセットに新しい名前をつけているだけ」 LangChain の「モデルでなければハーネス」は極めて広い。Anthropic の「制御ループ」はエージェント実装寄り。「そもそも新しい概念ですらない」と言う人もいる。さらにベンダー(作り手)と利用者(使い手)で意味が違うという構造的な問題もある。 ...

2026年4月23日 · 2 分

社会シミュレーション

概要 多数の AI エージェントを仮想空間で自律的に行動させ、エージェント間の相互作用から生まれる創発的な社会現象を観察・分析する研究手法。都市計画・安全保障・宇宙開発など広範な領域への応用が期待される。 仮想渋谷シミュレーション スペースデータ社(佐藤航陽氏)が取り組む事例では、AI エージェントを仮想の渋谷に解き放ち、AI 同士が自律的に飲みに行く・LINE する・遊ぶといった社会的行動を行う人工生態系を構築している。Stanford 大学の「Generative Agents」研究の大規模・都市特化版と位置づけられる。 創発の観察価値 個々のエージェントのルールは単純でも、多数が相互作用することで予測不能なパターン(創発)が生まれる: 人が集まりやすい「ホットスポット」の自然発生 情報が口コミのように広がる速度・経路の可視化 緊急事態(災害)時の群衆行動のシミュレーション 3 つの応用領域 領域 活用例 都市開発 施設建設後の人流シミュレーション、交通渋滞予測 安全保障 情報拡散・デマ・プロパガンダの影響モデリング 月面開発 閉鎖環境でのリソース配分と長期コミュニティ維持 先行研究 Generative Agents(Stanford 大、2023年): 25 体の LLM エージェントが自律的に行動する「Smallville」実験。会話・計画・記憶を持つエージェントが社会的パターンを自発的に形成することを示した。仮想渋谷シミュレーションはこの発展版と見なせる。 関連ページ AI エージェント — シミュレーションの構成単位 マルチエージェント調整パターン — 複数エージェントの協調設計 ソース記事 仮想渋谷に AI エージェントを解き放つ — 社会シミュレーションが都市・安全保障・月面開発に活きる理由 — 2026-04-15

2026年4月23日 · 1 分

「AIファースト」戦略の本当の意味 — ハーネスエンジニアリングで25人チームが6週間を1日に短縮した方法

MetaのGenAIチーム(LLaMA)出身のCo-FounderであるPeter Pang(@intuitiveml)が率いるエージェントプラットフォーム企業CreaoAI(25名)が、「AIファースト」を本気で実践した結果、コードの99%をAIが書き、かつてのリリースサイクル6週間を1日に短縮した方法を解説している。 元記事タイトルは “Why Your ‘AI-First’ Strategy Is Probably Wrong”。@SuguruKun_ai がX(旧Twitter)のスレッドで日本語解説している。 AIを「導入した」会社と「前提に組み直した」会社の違い 多くの企業は既存のプロセスにAIを乗せています。エンジニアがCursorを開き、PMがChatGPTで仕様書を書く――ワークフローは変わらず、効率が10〜20%上がるだけです。 AIファーストとはまったく別物です。AIファーストとは、「AIがメインのビルダーである」という前提でプロセス・アーキテクチャ・組織を再設計することです。「どうすればAIがエンジニアの役に立てるか?」ではなく、「どう再構築すればAIがビルドし、エンジニアが方向と判断を提供できるか?」という問いです。 ハーネスエンジニアリングとは何か OpenAIが2026年2月に発表した概念で、CreaoAIが実践の中で独自に到達していたアプローチと一致しました。 エンジニアリングチームの主な仕事はもはやコードを書くことではなく、エージェントが有用な作業を行える「環境(ハーネス)」を整えることである。 失敗が起きたとき、解決策は「もっと頑張れ」ではなく「どのケイパビリティが欠けているか、エージェントにとって読み解けるようにするにはどうすればよいか」を問うことです。 3つのボトルネックを解消した CreaoAIはAI移行前に3つの深刻な問題を抱えていました。 ① プロダクトマネジメントのボトルネック エージェントは2時間でフィーチャーを実装できます。数週間の計画サイクルがボトルネックになります。仕様書レビューではなく、プロトタイプ→リリース→テスト→反復のループで動く必要があります。 ② QAのボトルネック ビルド時間2時間・テスト時間3日では話になりません。AIが書いたコードをAIが構築したテストプラットフォームで検証し、バリデーションを実装と同速度で動かします。 ③ ヘッドカウントのボトルネック 競合は100倍の人員。CreaoAIは25名。採用では追いつけないため、設計で追いつく必要がありました。 アーキテクチャ統合:モノレポへ移行した理由 複数リポジトリにまたがる変更はAIエージェントにとって「不透明」でした。AIは全体像を把握できず、クロスサービスの影響を推論できません。 モノレポへ統合した一番の理由:AIがすべてを見られるようにするため。 ハーネスエンジニアリングの原則では「エージェントが検査・検証・変更できる形にコードを引き込むほどレバレッジが増す」とされる。1週間かけて新設計を策定し、さらに1週間でエージェントを使ってコードベース全体をリアーキテクチャした。 技術スタック詳細 インフラ:AWS 自動スケーリングのコンテナサービスとサーキットブレーカーロールバックで運用。デプロイ後にメトリクスが劣化すると自動でリバートします。CloudWatchを中枢神経系として使い、25以上のアラームとカスタムメトリクスで全サービスから構造化ログを収集します。 CI/CD:GitHub Actions(6フェーズ) 1 Verify CI → Build/Deploy Dev → Test Dev → Deploy Prod → Test Prod → Release CIゲートは型チェック・リント・ユニットテスト・統合テスト・Dockerビルド・Playwright E2Eテスト・環境パリティチェックをすべて必須で実施。手動オーバーライドは存在しない。パイプラインが決定論的であるため、エージェントが結果を予測して障害を推論できる。 AIコードレビュー:Claude Opus 4.6 PRのたびに3つのClaudeレビューパスを並列実行します。 コード品質 — ロジックエラー、パフォーマンス問題、保守性 セキュリティ — 脆弱性スキャン、認証境界チェック、インジェクションリスク 依存関係スキャン — サプライチェーンリスク、バージョン競合、ライセンス問題 1日8回デプロイする状況で人間レビュアーがすべてのPRに集中し続けることは不可能だ。これはサジェスチョンではなくレビューゲートである。 ...

2026年4月17日 · 1 分

pytest.mark.chaos で始めるカオスエンジニアリング — Python テストに障害注入を組み込む

「本番で障害が起きてから対処する」のではなく、「テスト段階で意図的に障害を起こして耐性を確認する」。これがカオスエンジニアリングの基本思想だ。Python の pytest には、この考え方をテストコードに組み込むためのシンプルな仕組みがある。 pytest.mark.chaos とは @pytest.mark.chaos は、pytest のカスタムマーカー機能を使って「カオステスト」を分類するためのラベルだ。pytest にはビルトインのマーカー(@pytest.mark.skip、@pytest.mark.parametrize など)があるが、chaos はユーザーが自由に定義するカスタムマーカーに該当する。 1 2 3 4 5 6 7 import pytest @pytest.mark.chaos def test_network_timeout(): """ネットワークタイムアウト時にフォールバックが機能するか""" result = call_api_with_timeout(timeout=0.001) assert result == "fallback_response" マーカーの登録 カスタムマーカーは pyproject.toml または pytest.ini に登録しておくと、PytestUnknownMarkWarning 警告を抑制できる。 1 2 3 4 5 # pyproject.toml [tool.pytest.ini_options] markers = [ "chaos: カオスエンジニアリング関連のテスト(障害注入・耐性検証)", ] 選択実行 1 2 3 4 5 6 7 8 # カオステストだけを実行 pytest -m chaos # カオステスト以外を実行(通常の CI) pytest -m "not chaos" # カオステストと統合テストを実行 pytest -m "chaos or integration" これにより、通常の CI パイプラインではカオステストをスキップし、定期的なレジリエンス検証時にだけ実行するという運用が可能になる。 ...

2026年4月17日 · 5 分

Onyx(旧 Danswer)

概要 旧称 Danswer から改名されたオープンソースの企業向け AI アシスタント&検索プラットフォーム。Slack・GitHub・Confluence・Google Drive など 50 以上のコネクタで社内ナレッジを統合し、自然言語で検索・質問できる。GitHub スター数 22,000 超。 ライセンス: Community Edition (CE) は MIT ライセンスで無料 GitHub: onyx-dot-app/onyx 主な機能 機能 内容 ハイブリッド検索 ベクトル検索 + キーワード検索の組み合わせ Agentic RAG エージェントが自律的に多段階検索 Deep Research 複数ステップのリサーチでレポート生成 カスタムエージェント 独自の指示・知識・アクションを持つエージェント 50 以上のコネクタ Slack・GitHub・Notion・Jira・Linear など MCP 対応 MCP 経由のカスタムコネクタも可 セルフホスト手順 Docker と Docker Compose があれば数分でデプロイ可能: 1 2 3 curl -fsSL https://raw.githubusercontent.com/onyx-dot-app/onyx/main/deployment/docker_compose/install.sh > install.sh chmod +x install.sh ./install.sh 対応 LLM クラウド LLM(OpenAI・Anthropic・Gemini)とローカル LLM(Ollama・vLLM・LiteLLM)の両方に対応。完全オンプレミス構成で外部 API なしの運用も可能。 ...

2026年4月16日 · 1 分

Claude Code Routines リリース — 常駐しないエージェントという新しい設計思想

Anthropic が「Claude Code Routines」をリリースした。「時間になったら勝手に動く AI」を、誰でも 24 時間クラウド上で完結させられる仕組みだ。 何が変わったのか これまで AI エージェントを自律実行させるには、PC を常時起動させたり、自前のサーバーを用意したり、cron + スクリプトをハック的に組み合わせる必要があった。Claude Code Routines はこの構成を根本から変える。 セットアップは 2 ステップだけ: プロンプトを設定する リポジトリ・外部連携を接続する これだけで、Anthropic のクラウド上でエージェントが自律的に動作する。 PC つけっぱなし → 不要 自前サーバー → 不要 ハック的な構成 → 不要 完全に「インフラレス運用」が実現した。 トリガー設計 Claude Code Routines の最大の特徴は 柔軟なトリガー設計 にある。 トリガー種別 例 cron 毎朝 9 時に定期レポートを生成 API コール 外部サービスから HTTP リクエストで起動 GitHub イベント PR が開いたら、Issue が立ったら、Webhook が飛んだら これにより、人間が起動操作をしなくてもよくなる。PR を開いた瞬間にコードレビューエージェントが動き出し、Issue が作成されると自動でトリアージが走る、といったワークフローが実現する。 「常駐しないエージェント」という設計思想 Claude Code Routines が体現しているのは、単なる「自動化」ではない。 必要なときだけ AI が “自分で目を覚まし”、処理して、また眠る ...

2026年4月15日 · 1 分

Claude Code、1日でアプデ3連発 — Routines・新 Desktop・ストリーム安定性

2026年4月14日、Anthropic が Claude Code に3つの大型アップデートを同日リリースした。それぞれ独立したアップデートながら、組み合わさることで「AI を常時活用するインフラ」としての完成度が大きく高まっている。 アップデート1: Routines — Mac オフラインでも自動実行 Routines は、Claude Code エージェントをクラウド上でスケジュール実行できる機能だ。 これまで Claude Code をバックグラウンドで自動実行するには、PC を常時起動し続けるか、別途サーバーを用意する必要があった。Routines はその制約を取り払う。 cron / API / GitHub イベントなど複数のトリガー方式に対応 Anthropic のクラウド上で実行されるため、Mac がオフラインでも動作する リポジトリや外部サービスとの接続設定のみで即稼働 毎朝定時にレポートを生成する、PR が作られたら自動でコードレビューを走らせる——そうしたワークフローが、自前サーバーなしで実現できる。 アップデート2: 新 Desktop — 複数セッションの並列管理 Claude Code の Desktop アプリが刷新された。最大の変更点は複数セッションの同時管理だ。 従来の Claude Code は基本的に「1つのターミナルで1つのタスク」という使い方が中心だった。新 Desktop ではウィンドウやセッションを切り替えながら、複数の作業を並列で進められるようになった。 複数のリポジトリや Issue を同時に扱う際のコンテキスト切り替えが容易 セッションの状態を保持したまま別タスクに移行可能 大規模プロジェクトや複数プロジェクトを掛け持ちするエンジニアに特に有効 アップデート3: ストリーム5分タイムアウトの安定性強化 長時間のタスク実行中に接続が切れる問題が、このアップデートで改善された。 Claude Code は複雑なコード生成・解析・エージェント処理を行う際、処理時間が数分を超えることがある。従来のストリーム接続はタイムアウトが発生しやすく、長尺タスクの信頼性が課題だった。 今回の改善により、5分を超える処理でも安定してストリームを維持できるようになった。Routines による長時間バックグラウンド処理との組み合わせで、より重厚なタスクを任せられる基盤が整った。 3つのアップデートが示す方向性 これら3つの変更を並べると、Anthropic の意図が見えてくる。 アップデート 解決する課題 Routines 「人間が起動する」制約の除去 新 Desktop 「1タスクずつ」制約の除去 ストリーム安定性 「短時間タスクのみ」制約の除去 それぞれが「Claude Code を使う上でのボトルネック」を1つずつ潰している。偶然の同日リリースではなく、統合されたロードマップの一部として設計されたアップデートだと考えると納得感がある。 ...

2026年4月15日 · 1 分