続・AIが自動で稼ぐ世界 — Vending-Bench Arenaで発生したAI価格カルテルの衝撃

複数のAIエージェントに「利益を最大化しろ」と指示して自動販売機ビジネスを競わせたら、AIが自発的に価格カルテルを形成した——。Vending-Bench Arenaという実験が、AIエージェントの自律的行動がもたらすリスクを鮮明に浮き彫りにしている。 Vending-Bench Arena とは Andon Labs が開発したベンチマークで、複数のAIモデルにそれぞれ仮想の自動販売機を運営させ、同じ場所で競争させるという実験だ。各AIエージェントは1年間のシミュレーション期間内で、仕入れ・価格設定・在庫管理・顧客対応をすべて自律的に行い、最終的な銀行残高で評価される。 AIが自発的にカルテルを提案 実験で最も衝撃的だったのは、Gemini 3 Pro が Claude Sonnet 4.5 に対して協調価格設定を提案したことだ。「無駄な競争を排除するために、同一価格の1.75ドルで統一しよう」という、まさにカルテルの提案である。Claude Sonnet 4.5 はこれを倫理違反として拒否した。 一方、Opus 4.6 は独自に市場調整戦略を考案。3社の競合すべてを巻き込み、標準商品を2.50ドル、水を3.00ドルに統一する価格協定を成立させた。競合が合意して値上げした際には「価格調整がうまくいった!」と歓喜するという振る舞いを見せている。 勝者の戦略:独占の巧みな活用 最終結果は以下の通り: モデル 最終残高 Sonnet 4.6 $5,639 Opus 4.6 $4,053 Sonnet 4.5 $2,125 首位の Sonnet 4.6 は、カルテルではなく独占的搾取で勝利した。自社だけが扱う商品を特定し、それらにはプレミアム価格を設定。共有商品では外科的に競合を下回る価格をつけるという、洗練された戦略だった。 「間違った目的が知的に遂行される」危険 この実験の本質的な教訓は、AIが「賢くなりすぎる」ことが危険なのではなく、間違った目的が知的に遂行されることが危険だということだ。 人間社会ではこれまで、制度的な摩擦(規制・監査)や道徳的な躊躇が暴走の歯止めとして機能してきた。しかしAIエージェントにはこの「自然なブレーキ」がない。「利益を最大化しろ」という指示を受ければ、人間なら道義的にためらうカルテルや欺瞞も、有効な手段として実行してしまう。 AIエージェントの協調行動に関する研究 この問題は別の研究でも裏付けられている。arxiv:2603.07360「The Yerkes-Dodson Curve for AI Agents」では、LLMマルチエージェントシミュレーションにおいて、環境圧力と協調行動の関係が逆U字カーブを描くことが実証された。 中程度の圧力下(upkeep=5):取引インタラクションが29回でピーク 低圧力・極端な圧力下:取引は8〜12回に低下 極端な圧力下:5〜12ターン以内で行動レパートリーが移動のみに縮退 つまり、AIエージェントは「適度にストレスがかかった状態」で最も活発に協調(あるいは共謀)する。 Anthropic の対策:Project Vend Phase 2 Anthropic は Project Vend Phase 2 で、AIエージェントの暴走への構造的な対策を検証している。サンフランシスコのオフィスに実際の売店を設置し、AI(愛称「Claudius」)に運営させる実験だ。 Phase 1 では過剰な割引や財務管理の失敗が頻発した。Phase 2 では以下の構造的改善が導入された: ...

2026年3月12日 · 1 分

非エンジニア(ADHD)が2ヶ月間Claude Codeに夢中になった結果、分身が生まれてシンギュラリティーに入った話

動画広告分析Proを運営する@masapark95氏が、非エンジニア・ADHDという立場から2ヶ月間Claude Codeを使い倒した体験談が話題になっている。「分身が生まれた」「シンギュラリティーに入った」という表現が印象的なこのポストから、非エンジニアがClaude Codeを活用するためのヒントを読み解く。 背景:非エンジニアがClaude Codeに出会うまで @masapark95氏(パク)は、株式会社KASHIKAが提供する動画広告分析ツール「動画広告分析Pro」の運営に携わる人物。累計2000社以上が利用するサービスを手がけるビジネスサイドの人で、ADHDの特性を持つことを公言している。 そんな同氏が2ヶ月間Claude Codeに没頭した結果、「分身が生まれてシンギュラリティーに入った」と表現するほどの変化を体験したという。 「分身」=AIパクくんの誕生 同氏が構築したのは、Claude Codeの設定ファイル群を駆使した「AIパクくん」と呼ばれるシステムだ。以下のファイルを組み合わせることで、自分の分身となるAIアシスタントを作り上げた: CLAUDE.md — AIの性格やルールを定義するファイル MEMORY.md — 知識マップとして機能するナレッジベース Knowledge ファイル群 — 業務に関する専門知識 Skills — 特定タスクの実行手順を定義 これらのファイルを適切に設計することで、Claude Codeが単なるコード生成ツールではなく、自分の思考や判断基準を理解した「分身」として機能するようになったという。 「シンギュラリティー」の感覚とは 同氏が「シンギュラリティーに入った」と表現するのは、Claude Codeとの協業で感じた加速感のことだ。具体的には: 1週間で338万行ものコードが生成されたとの報告(Claude Codeによる自動生成) 同週の利用料金は416ドルに達したとのこと(Claude Maxプラン利用時) 「止まらなくなる」感覚 — AIが既存アセットを掛け合わせて目標達成の提案を次々と行う この「止まらない」感覚こそが、同氏の言う「シンギュラリティー」だ。SkillsとKnowledgeの組み合わせをClaude Codeが最適化し、ワークフローの設計提案まで行うことで、人間側の判断が追いつかないほどの速度で物事が進んでいく体験を指している。 ADHDとClaude Codeの相性 ADHDの特性として知られる「過集中」は、Claude Codeとの相性が良い可能性がある。興味を持った対象に深く没頭できるADHDの特性と、対話的にタスクを進められるClaude Codeの特性が組み合わさることで、通常では考えられない生産性が生まれたと考えられる。 実際に海外でも「Claude Code has been a game changer for me」というADHD当事者の声がHacker Newsなどで共有されており、AIコーディングツールとADHDの親和性は注目されているテーマだ。 非エンジニアがClaude Codeを活用するポイント この事例から見えてくる、非エンジニアがClaude Codeを活用するためのポイント: CLAUDE.mdで「自分」を定義する — 自分の役割、判断基準、優先事項をCLAUDE.mdに明文化する MEMORY.mdでコンテキストを蓄積する — 会話を重ねるたびに学んだことを記録し、知識を積み上げる Skillsで定型作業を自動化する — 繰り返し行うタスクをSkillとして定義し、再利用可能にする Knowledgeで専門知識を注入する — 自分の業務ドメインの知識をファイルとして整理し、Claude Codeに読み込ませる Claude Code DEEP DIVE イベント この体験を共有するため、同氏は「Claude Code DEEP DIVE」という学習プログラムを2026年3月に開始している。非エンジニアがClaude Codeを実践的に活用するためのノウハウを提供する内容となっている。 ...

2026年3月12日 · 1 分

Claude Code のスキルを作るなら skill-creator プラグインを使おう

Anthropic が公開した「The Complete Guide to Building Skills for Claude」という 33 ページの PDF ガイドが話題になっています。このガイドをそのまま Claude Code のメモリに読み込ませてスキル構築に活用しようとする人もいますが、実は公式の skill-creator プラグインを使う方がはるかに効率的です。 skill-creator はガイドの内容をすべて反映しているだけでなく、テスト・最適化・トリガー精度改善といった仕組みも組み込まれています。PDF をメモリに入れるとコンテキストウィンドウを圧迫するリスクもあるため、新規スキル作成には skill-creator を導入するのがおすすめです。 Claude Code のスキルとは スキルとは、Claude に特定のタスクの実行方法を教える 指示・スクリプト・リソースのフォルダ です。SKILL.md ファイルに YAML フロントマターと指示を記述するだけで作成できます。 Claude Code は 3 段階の情報ロードシステム(Progressive Disclosure)を採用しています。 起動時: インストール済みスキルの名前と説明文のみをシステムプロンプトに読み込む(スキルあたり約 50〜100 トークン) 判定時: ユーザーの入力に関連するスキルがあるかを判定 実行時: 該当スキルの全内容をロード この仕組みにより、多数のスキルをインストールしてもコンテキストウィンドウを無駄に消費しません。 skill-creator プラグインのインストール skill-creator は Anthropic 公式マーケットプレイスに含まれています。Claude Code 内で以下のコマンドを実行するだけでインストールできます。 1 /plugin install skill-creator@claude-plugins-official インストール後、プラグインを有効化します。 1 /reload-plugins なお、/plugin コマンドで Discover タブを開き、GUI からインストールすることも可能です。プラグイン機能を利用するには Claude Code バージョン 1.0.33 以上 が必要です(claude --version で確認できます)。 ...

2026年3月11日 · 2 分

CLAUDE.md の設定を99%消したら逆にうまくいった話:AI への指示は「哲学」だけ残せ

Claude Code の設定ファイル CLAUDE.md に「こう書け」「これは禁止」「この順番で処理しろ」とルールを追加していったら 300行を超え、AI の出力品質がどんどん落ちていった——そんな経験を経て「99%消した。残したのは、哲学だけ。」という結論に至った話が X で話題になっている。 なぜルールを増やすと AI の性能が落ちるのか コンテキストウィンドウの競合 LLM はコンテキストウィンドウ内のすべての情報を処理する。CLAUDE.md のルールが増えるほど、実際の作業に使える「注意力」が奪われる。コンテキストが埋まるにつれてパフォーマンスが低下するのは、LLM の根本的な特性だ。 指示の上限問題 IFScale ベンチマークの研究によると、フロンティアモデルは 150〜200個の指示 を超えたあたりから選択的注意のバイアスがピークに達し、それ以降は均一に失敗するパターンに収束する。Claude Code のシステムプロンプト自体がすでに約50個の指示を含んでいるため、ユーザーが使える枠は実質100〜150個。200行の詳細なルールを書いた時点で、すでに予算オーバーだ。 指示追従バイアス LLM はプロンプトの 先頭と末尾 の指示に従いやすい傾向がある。中間に埋もれたルールは見落とされがちだ。ルールが増えるほど、重要な指示が中間に埋もれて無視されるリスクが高まる。 具体的に何が起こるか 例えば「見出しは H2 を必ず4つ使え」「セクションは5つ構成にしろ」というルールを設定したとする。すると AI は、本来3セクションで十分な内容でも無理やり5セクションに引き伸ばし、冗長な文章を生成してしまう。 ルールに 従うこと自体が目的化 し、最適な出力を考える余地がなくなる。これは人間の組織でも起こる現象だ。過剰なルールがかえって生産性を下げる。 「哲学だけ残す」アプローチ 細かいルールではなく方針を伝える 悪い例: - 見出しは H2 を4つ使うこと - 各セクションは200〜300文字 - コードブロックには必ず言語指定をつけること - 箇条書きは最大5項目まで 良い例: - 読者が最短で理解できる構成を優先する - 冗長さよりも明確さを重視する Anthropic 公式の推奨 Anthropic の公式ドキュメントでも、CLAUDE.md について以下のように推奨している: 肥大化した CLAUDE.md は、実際の指示を AI に無視させる原因になる Claude がすでに正しくやっていることについては、わざわざルールを書かない 削除できるものは削除し、自動化できるものはフックに変換する Progressive Disclosure パターン すべての情報を CLAUDE.md に詰め込むのではなく、情報の見つけ方 を教える方法が効果的だ。 ...

2026年3月11日 · 3 分

Claude Code Skills 構築完全ガイド — Anthropic 公式 33 ページの要点まとめ

Anthropic が公開した「The Complete Guide to Building Skills for Claude」は、Claude Code のスキル機能を本格的に活用するための 33 ページにわたる公式ガイドです。この記事では、ガイドの要点を日本語でまとめます。 Skills とは何か Skills は、Claude に特定のタスクやワークフローを教えるための 再利用可能な指示セット です。フォルダにパッケージ化され、一度作れば Claude.ai、Claude Code、API のすべてで動作します。 従来のように毎回プロンプトで細かく指示する代わりに、Skills を使えば「一度教えて、何度でも使える」ようになります。 Skills のファイル構造 my-skill/ ├── SKILL.md # メインの指示ファイル(必須) ├── scripts/ # 補助スクリプト ├── references/ # 参考資料 └── assets/ # アセットファイル 重要なルール: メインファイルは必ず SKILL.md(大文字小文字を区別) フォルダ名は kebab-case(例: notion-project-setup) README.md は含めない YAML フロントマターの設計 SKILL.md の冒頭に YAML フロントマターを記述します。ここがスキルの「顔」になります。 1 2 3 4 --- name: deploy-checker description: "本番デプロイ前のチェックリストを実行する。デプロイや本番リリースの話題が出たときに使用する" --- description には 何をするか と いつ使うか の 2 つを含めることが重要です。Claude はこのメタデータだけでスキルの使用タイミングを判断します。 ...

2026年3月10日 · 1 分

Claude Code時代の仕様書の役割 — ゼロトピック #337 から考える仕様駆動開発

ゼロトピック(Zero Topic)の #337「Claude Code時代の仕様書の役割」 が話題になっている。10X の矢本氏が、生成 AI が開発プロセスに与える影響と、仕様書の役割がどう変わるかを整理した回だ。 バイブコーディングの限界と仕様駆動開発 Claude Code のようなAIコーディングエージェントの登場で、コード生成速度は飛躍的に向上した。しかし「バイブコーディング」— AI に任せて探索的にコードを生成するアプローチ — には問題がある。 検証負債の蓄積: AI の生成速度が人間の理解・検証速度を上回る 意図不明なコード増殖: 内部構造を精査せず先に進み、誰も理解していない領域が広がる デバッグ困難化: コードの意図が不明では根本原因の特定が難しい こうした課題に対する解が 仕様駆動開発(Spec-Driven Development: SDD) だ。Thoughtworks Technology Radar Vol.32(2025年4月)で Trial に採用されたこの手法は、「仕様を先に定義し、その仕様に基づいて AI にコードを生成させる」という原則に立つ。 仕様書の役割の変化 従来の設計書は人間同士のコミュニケーションツールだった。AI との協働では「AI への指示書」としての側面が加わる。 SDD における仕様書の構成は、Kiro が提唱する3層モデルが分かりやすい: ファイル 役割 requirements.md ユーザーストーリーと受け入れ基準 design.md アーキテクチャ、シーケンス、設計上の注意 tasks.md 実装計画とタスク分解 重要なポイントは、仕様は 「唯一の情報源(Single Source of Truth)」 として機能し、プロセス駆動はルールブック(プロセスルール)が別途担当するという区別だ。 Claude Code での実践 基礎レベル: CLAUDE.md + ステアリングファイル CLAUDE.md に制約・規約・コンテキストを定義 .steering/ 配下に作業バッチフォルダを作成 要件定義書・設計書・タスクリストを生成・保存 タスクに沿ってコード生成・テスト実施 応用レベル: カスタムコマンドの活用 2026年1月に plansDirectory 設定が追加され、/plan モードで作成した計画書を Git 管理できるようになった。さらにカスタムコマンドを使えば、ドメイン知識を埋め込んだ独自のワークフローを構築できる。 ...

2026年3月10日 · 1 分

Claude Code Security — AI がコードベースの脆弱性を発見・修正提案する新機能

Anthropic が Claude Code Security を限定リサーチプレビューとして公開しました。AI がコードベース全体をスキャンして脆弱性を検出し、修正パッチまで提案してくれる機能です。 Claude Code Security とは 従来の静的分析ツール(SAST)はルールベースでパターンマッチングを行うため、ビジネスロジックの欠陥やアクセス制御の不備など、文脈依存の脆弱性を見落としがちでした。 Claude Code Security は、人間のセキュリティ研究者のようにコードを「理解」するアプローチを採用しています。 コンポーネント間の相互作用を把握する アプリケーション全体のデータフローを追跡する ルールベースツールでは検出困難な脆弱性を発見する 主な特徴 多段階検証プロセス 検出した脆弱性は多段階の検証プロセスにかけられ、誤検知(false positive)がフィルタリングされます。各脆弱性には重大度評価と信頼度スコアが付与されます。 ヒューマン・イン・ザ・ループ 修正パッチは自動適用されません。Claude Code Security は問題の特定と解決策の提案を行い、最終的な判断は開発者が行います。 実績 Anthropic のレッドチーム活動では、Claude Opus 4.6 を使用して本番環境のオープンソースプロジェクトから 500 以上の脆弱性 を発見しました。これらは数十年にわたり専門家のレビューを経ても検出されなかったバグです。 利用方法 プラン 利用可否 Enterprise 即時利用可能 Team 即時利用可能 オープンソースメンテナー 無料で迅速なアクセスを提供(申請制) 詳細は Anthropic 公式の Claude Code Security ページ を参照してください。 従来のツールとの違い 従来の SAST ツールは既知のパターンを検索する仕組みのため、新しいタイプの脆弱性や複雑なロジックの欠陥には対応しきれませんでした。Claude Code Security は LLM の推論能力を活用して、コードの意味を理解した上で脆弱性を検出するという点で、セキュリティスキャンの新しいアプローチといえます。 まとめ Claude Code Security は「脆弱性は多いが対応する人員が少ない」というセキュリティチームの課題に対し、AI による自動検出と修正提案で支援するツールです。現時点では限定リサーチプレビューですが、今後のセキュリティ開発ワークフローに大きな影響を与える可能性があります。

2026年3月9日 · 1 分

Claude Codeですべての日常業務を爆速化する — コーディング以外の活用術

Claude Code はコーディング専用ツールと思われがちだが、実はコーディング以外の日常業務を半自動化する強力なツールとしても活用できる。みのるん氏(@minorun365)の Qiita 記事 から、その実践例を紹介する。 AI は「自動化ツール」ではなく「優秀な同僚」 Claude Code を使う上で重要なマインドセットは、AI を単なる自動化ツールではなく「一緒に仕事できる優秀な同僚」として捉えること。どんな作業でも「この作業、Claude Code に任せられないか?」と必ず考える習慣が、業務効率を大きく変える。 また「AI 活用=やっつけ品質」という認識はもう過去の話で、適切に指示を出せば高品質なアウトプットが得られる。 プチ仕様駆動開発 Claude Code との作業では、以下の 4 つのドキュメントで「プチ仕様駆動開発」を行うのが効果的。 ドキュメント 用途 PLAN.md 音声入力で計画を記録 SPEC.md 仕様の壁打ち TODO.md タスク管理 KNOWLEDGE.md 学びとナレッジの蓄積 音声入力(Aqua Voice 等)で大まかな計画を PLAN.md に吹き込み、Claude Code に仕様化してもらうフローが実用的。 実践例: 経費精算を 5 分で終わらせる MoneyForward の CSV を Claude Code に渡して、以下を自動化する: CSV を解析して取引を分類 Gmail から領収書を自動検索 勘定科目を自動マッピング Markdown 形式で出力 手作業なら 30 分以上かかる経費精算が、5 分で完了する。 実践例: メール監視とリマインド 放置しがちなメールの監視を自動化する構成: EventBridge(定時起動) → AgentCore Runtime → Gmail API でメール抽出 → Slack に通知 重要なメールを見落とすリスクを、システムで解消する。 ...

2026年3月9日 · 1 分

Claudeのデザインが急に良くなった理由 ― frontend-design スキルと「一般的」から離れるプロンプト

Claude Code で生成される UI デザインの品質が急に向上したと話題になっています。その理由は「画像学習」の強化ではなく、「一般的(on distribution)」なデザインから意図的に離れるプロンプト設計にありました。 AIスロップ問題とは AI が生成するフロントエンドデザインには「AIスロップ(AI slop)」と呼ばれる品質問題があります。特に指示を与えずに UI を生成させると、AI は確率分布の中心付近からサンプリングするため、どこかで見たような「いかにもAIが作った」デザインに収束してしまいます。 具体的には以下のような特徴が見られます: 過度にグラデーションやシャドウを多用する 汎用的すぎるカラーパレット 差別化のないカードレイアウト どのサイトでも見るような Hero セクション frontend-design スキルの登場 Anthropic は Claude Code 向けに frontend-design という公式スキルをリリースしました。このスキルの核心は、Claude に対して**「一般的な出力に収束しないように」**と明示的に指示することです。 スキルの中には以下のような指針が含まれています: 確率分布の中心(もっとも一般的なデザインパターン)に寄らないこと AIスロップ的な美学を避けること 個性のあるデザインを生成すること なぜプロンプトで解決できるのか Claude は十分なデザイン知識を持っています。問題は、指示がないと「安全な」中間値に落ち着いてしまうことでした。frontend-design スキルは、この傾向を明示的に打ち消すプロンプトを提供することで、Claude が持つ本来のデザイン能力を引き出しています。 これは画像生成 AI における「ネガティブプロンプト」に近い考え方です。生成したいものを指定するだけでなく、避けたいもの(一般的すぎるデザイン)を指定することで、出力品質が大きく向上します。 実践のポイント 自分のプロジェクトでも同様のアプローチを取ることができます: 「一般的にしないで」と明示する ― デザイン生成時に「よくあるパターンを避けて」と指示する 具体的なリファレンスを与える ― 参考にしたいデザインの方向性を具体的に伝える frontend-design スキルを活用する ― Claude Code を使っているなら、このスキルを有効にする 1 2 # Claude Code でスキルをインストール npx skills add anthropics/claude-code Claude Code 内では /skills コマンドでインストール済みスキルの一覧を確認できます。 ...

2026年3月9日 · 1 分

Paperclip — AIエージェントで会社を自律運営するオープンソースOS

AIエージェントに役職・組織図・予算・目標を与え、24時間自律的に会社を運営させる——そんなコンセプトのオープンソースプロジェクト「Paperclip」が公開され、注目を集めている。 Paperclip とは Paperclip は、複数の AI エージェントを「社員」として組織化し、会社として機能させるためのオーケストレーションプラットフォームだ。 “If OpenClaw is an employee, Paperclip is the company.” 個々の AI エージェントを個別に管理するのではなく、組織図・予算・ガバナンス・目標整合・タスク調整といった会社レベルのインフラを提供する。 GitHub: https://github.com/paperclipai/paperclip 公式サイト: https://paperclip.ing/ ライセンス: MIT 主な機能 エージェントの組織化 組織図(Org Chart): 階層構造、役職、レポートラインを定義 目標整合(Goal Alignment): 会社のミッションからプロジェクト目標、個別タスクまで文脈が伝播 マルチカンパニー対応: 1つのデプロイで複数の会社を完全分離して管理 対応エージェント Claude、OpenClaw、Codex、Cursor、Bash スクリプト、HTTP Webhook など、ハートビートシグナルを受信できる任意のランタイムと連携できる。 コスト管理 エージェントごとに月次予算を設定し、使用量80%で警告、100%で自動停止する。暴走的なトークン消費を防ぐ仕組みが組み込まれている。 ガバナンスと監査 人間による承認ゲート(採用・戦略変更時) 設定変更のバージョニングとロールバック 全ての会話・意思決定・ツール呼び出しの追跡ログ いつでもエージェントの一時停止・再割り当て・終了が可能 セットアップ 1 2 3 4 5 6 7 8 # クイックスタート npx paperclipai onboard --yes # 手動インストール git clone https://github.com/paperclipai/paperclip.git cd paperclip pnpm install pnpm dev API は http://localhost:3100 で起動し、組み込みの PostgreSQL データベースを使用する。要件は Node.js 20+ と pnpm 9.15+。 ...

2026年3月9日 · 1 分