Agent

AI が書いた CLAUDE.md は逆効果 --- 「コンテキストファイルの自動生成は精度を下げる」という研究

AI が書いた CLAUDE.md は逆効果 — 「コンテキストファイルの自動生成は精度を下げる」という研究 @at_sushi_（門脇敦司）氏が X で投稿した、AI 生成のプロンプトファイルに関する記事が注目を集めています。 CLAUDE.md のようなプロンプトファイルを AI に生成させると「逆に精度が下がる」という研究です。AI 文書は冗長で、AI 自身を混乱させます。では、どうすればいいのか？というと、「本当に重要な情報だけを、開発者が書く」というのが現在の正解です元記事は Zenn の解説記事で、ETH Zurich と LogicStar.ai の研究チーム（Gloaguen et al.）による論文「Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents?」を日本語で紹介しています。本記事では、この研究の実験データを詳しく読み解き、CLAUDE.md / AGENTS.md の書き方への実践的な示唆を整理します。研究の概要 — 何を検証したのか背景 CLAUDE.md、AGENTS.md、CURSORRULES — これらの「コンテキストファイル」は、AI コーディングエージェントにリポジトリの慣習や制約を伝えるための指示書です。Anthropic、OpenAI、Cursor はいずれもこれらのファイルの作成を強く推奨しています。しかし、「コンテキストファイルは本当にエージェントの性能を向上させるのか?」という基本的な問いに対して、厳密な検証はこれまで行われていませんでした。実験設計 ETH Zurich の研究チームは、3 つの条件で比較実験を実施しました。条件内容なし（None）コンテキストファイルなし（ベースライン） LLM 生成エージェント開発者の推奨に従い LLM に自動生成させたファイル人間作成開発者がリポジトリにコミットしたファイル評価対象モデル: Claude Code（Sonnet 4.5）、Codex（GPT-5.2 / GPT-5.1 mini）、Qwen Code（Qwen3-30b-coder） ...

AnimaWorks — 「AIだけの会社組織」を作る日本発フレームワークの設計思想

AnimaWorks — 「AIだけの会社組織」を作る日本発フレームワークの設計思想りょうま(@ryoma_nakajima)氏のポストで紹介された「AnimaWorks」が注目を集めています。日本人が開発している「AIだけで作る会社組織」フレームワークを試してみる。AIに性格を指定するところから始まるのが近未来感すごすぎて好き — りょうま(@ryoma_nakajima) 72,000超の表示、447ブックマークという反響は、「AIエージェントに組織を作らせる」というアイデアへの強い関心を示しています。元になったげれげれ(@medmuspg)氏のポストでは、OpenClawとの違いを「1人の優秀なAI秘書」と「AIだけの会社組織」という対比で説明しています。本記事では AnimaWorks の設計思想を掘り下げ、マルチエージェントフレームワークの現在地を整理します。 AnimaWorks とは何か AnimaWorks は「Organization-as-Code」を標榜する、自律型AIエージェントチームのためのオープンソースフレームワークです。Apache License 2.0で公開されており、10,600行以上のPythonコードで構成されています。コアの思想は明快です。 “Imperfect individuals collaborating through structure outperform any single omniscient actor."（不完全な個体が構造を通じて協力すれば、単一の全知の存在を凌駕する）項目内容開発者 xuiltul（日本人開発者）言語 Python（10,600行以上）ライセンス Apache License 2.0 対応モデル Claude, GPT-4o, Gemini, Mistral, Ollama 等実行モード 4種（Claude Agent SDK / Codex SDK / LiteLLM / Basic） UI Webダッシュボード + 3Dワークスペース + 音声チャット OpenClaw との決定的な違い OpenClaw と AnimaWorks は同じ「AIエージェント」カテゴリに分類されますが、設計思想が根本的に異なります。観点 OpenClaw AnimaWorks 設計思想 1人の優秀なAI秘書 AIだけの会社組織エージェント数基本は1体（拡張でマルチ可）最初からマルチエージェント前提関係性ユーザーとエージェントの1対1 上司・部下の階層構造記憶コンテキストウィンドウ依存神経科学に着想を得た永続記憶通信ユーザーへの応答エージェント間の非同期メッセージングカプセル化なし（透過的）各エージェントの内部は他から不可視開発元 Peter Steinberger（オーストリア、現OpenAI） xuiltul（日本）この違いは単なる機能差ではなく、組織論に基づく設計かどうかの差です。AnimaWorks は「不完全な個体の協力」を前提に設計されており、現実の企業組織と同じく、情報の非対称性やコミュニケーションコストを意図的に組み込んでいます。 ...

dotenvx・lkr・aws-vault・1Password CLI — .env 代替ツール4種の選び方とベストプラクティス

dotenvx・lkr・aws-vault・1Password CLI — .env 代替ツール4種の選び方とベストプラクティス AI エージェントが .env ファイルを読み取るリスクが現実のものとなり、平文の .env を代替するツールが続々と登場しています。本シリーズでは aws-vault、lkr、dotenvx + 1Password CLI をそれぞれ解説してきました。しかし「結局どれを使えばいいのか」という疑問が残ります。本記事では、4つのツールの守備範囲・強み・限界を比較し、チーム構成や開発環境に応じた選択指針を提示します。 4ツールの守備範囲最も重要な違いは管理対象の範囲です。ツール管理対象 DB接続 SaaS キー LLM API キー AWS 認証 aws-vault AWS 認証情報のみ - - - 対応 lkr LLM API キー（8社） - - 対応 - dotenvx .env に書ける全て対応対応対応対応 1Password CLI 全種類対応対応対応対応 aws-vault と lkr は特定領域に特化したツールです。.env に含まれる全てのシークレットをカバーするには、dotenvx か 1Password CLI が必要になります。各ツールの強みと弱み aws-vault 1 $ aws-vault exec dev -- python manage.py runserver 強み弱み STS 一時認証（15分〜で自動失効） AWS 認証情報しか管理できない AssumeRole による権限分離 macOS 限定（Keychain 依存） MFA 統合チーム共有不可漏洩しても短時間で無効化される最大の強みは STS による一時認証です。他のどのツールも「漏洩しても自動で失効する」認証情報は提供できません。aws-vault が発行する一時認証情報は、仮に AI エージェントに読まれても最短15分で失効します。 ...

Readout — Claude Code の開発環境をリアルタイム監視する macOS ネイティブアプリと「エージェント監視」カテゴリの台頭

Readout — Claude Code の開発環境をリアルタイム監視する macOS ネイティブアプリと「エージェント監視」カテゴリの台頭まさお@AI駆動開発(@AI_masaou)氏のポストが注目を集めています。168いいね、242ブックマークという反響は、Claude Code ユーザーが「セッション管理」と「コスト把握」に強い課題感を持っていることを示しています。 Claude Codeを日常的に使っているなら、これは知っておいたほうがいい。『Readout』— Claude Codeの開発環境をリアルタイム監視するmacOSネイティブアプリ。完全ローカル動作、アカウント不要、無料 — まさお@AI駆動開発(@AI_masaou) 紹介されている Readout は、開発者 Benji Taylor(@benjitaylor) が「自分のために作った道具」です。2026年2月27日の公開からわずか数日で英語圏・日本語圏・中国語圏に同時に広まり、AIエージェント監視という新しいツールカテゴリの勃興を象徴する存在になっています。 Readout の概要 Readout は macOS Tahoe 向けのネイティブアプリ（v0.0.6 Beta、19.8MB）です。Claude Code のセッションログをローカルで読み取り、開発環境の状態を一つのダッシュボードに集約します。主要機能機能説明リポジトリ状態 Git ブランチ、変更ファイル、ワークツリーの一覧セッション履歴過去の Claude Code セッションを一覧表示 APIコスト追跡トークン消費量と推定コストのリアルタイム表示依存関係プロジェクトの依存パッケージの状態設定ファイル CLAUDE.md、MCP 設定の一覧ポート使用状況開発サーバーのポート占有状態セッションリプレイ Benji Taylor氏のアナウンスによると、セッションリプレイは Readout の最も注目される機能です。過去の Claude Code セッションをタイムラインで完全再生でき、以下の操作が可能です。プロンプト、ツール呼び出し、ファイル変更を時系列で表示再生速度の変更やステップ実行ファイル編集時のリアルタイムハイライトこれは「Claude Code が何をしたか」を事後検証するためのツールであり、セキュリティ監査やコードレビューの観点からも有用です。 Assistant 機能バックグラウンドで開発環境をスキャンし、その情報をベースにインタラクティブな対話が可能です。ワークツリーのクリーンアップや衛生管理の修正といったアクションも実行できます。応答はリッチなコンテンツカードで表示されます。 Codex 対応 v0.0.7 で OpenAI Codex のセッション監視にも対応しました。Claude Code に限定されないマルチエージェント監視ツールへの進化が見えます。 ...

個人のファインチューニング済みモデルを P2P で相互利用する --- 分散 MoE で「みんなの AI」は成立するか

個人のファインチューニング済みモデルを P2P で相互利用する — 分散 MoE で「みんなの AI」は成立するか先の記事「オープンソース AI は『無料』でも『民主化』でもない」で取り上げた Dario Amodei の指摘 — 推論には高価な計算資源が必要であり、重みの公開だけでは真の民主化にならない — に対して、興味深い反論の構想があります。 Qwen 3.5 のような軽量モデルを各個人が自分のドメインでファインチューニングし、P2P ネットワークで互いのエージェントに相互利用させれば、大規模 LLM と同等の仕組みを分散的に構築できるのではないか? この構想を技術的に検証します。構想の全体像 — 分散 Mixture of Experts この発想は、商用 LLM の内部で使われている Mixture of Experts（MoE）アーキテクチャを、P2P ネットワーク上に展開したものと捉えることができます。個人A: Qwen 3.5 (法律ドメインでファインチューニング) 個人B: Qwen 3.5 (医療ドメインでファインチューニング) 個人C: Qwen 3.5 (プログラミング特化) 個人D: Qwen 3.5 (会計・税務特化) 個人E: Qwen 3.5 (マーケティング特化) ↓ P2P ルーティングレイヤー（質問の性質に応じて最適なノードを選択） ↓ エージェントが複数の専門モデルを横断的に活用商用 LLM が「1 つの巨大なモデル内でエキスパートを切り替える」のに対し、この構想は「ネットワーク上の独立した専門モデルを切り替える」アプローチです。なぜ今この構想が現実味を帯びているのか 3 つの技術的な進歩が、この構想を「空想」から「検討に値する」レベルに引き上げています。 ...

AIエージェントの勝負所は「モデル性能」ではなく「ハーネス設計」にある

AIエージェントの勝負所は「モデル性能」ではなく「ハーネス設計」にあるはじめに 2026年に入り、AIエージェント開発の世界で急速に広まっている概念がある。「Agent Harness（エージェント・ハーネス）」だ。 LLMの性能は日々向上し、Claude Opus 4.6、GPT-5、Gemini 2.5 Pro といったモデルが次々とリリースされている。しかし、現場のエンジニアたちは気づき始めている——同じモデルを使っていても、エージェントの体感品質はまるで別物になるということに。その差を生むのがモデルの「外側」にある仕組み、すなわちAgent Harnessである。この記事では、Philipp SchmidのAgent Harness論、Lance MartinのContext Engineering解説、そしてManusの実装例を手がかりに、エージェント開発の新しいパラダイムを整理する。 Agent Harness・AIエージェント・LLM の関係まず、3つの概念の関係を整理する。混乱しやすいのは、これらが入れ子構造になっているからだ。レイヤー構造 graph TB subgraph UserLayer["ユーザー"] U["指示を出す / 結果を受け取る"] end subgraph AgentLayer["AIエージェント = アプリケーション層"] A1["ユーザー固有のロジック・目的"] A2["例: コードアシスタント、リサーチエージェント、カスタマーサポートBot"] end subgraph HarnessLayer["Agent Harness = OS層"] H1["コンテキスト管理 / ツール実行 / 権限制御"] H2["メモリ管理 / 再試行 / フォールバック / 承認ポイント"] end subgraph LLMLayer["LLM = CPU層"] L1["言語理解・推論・生成"] L2["例: Claude Opus 4.6, GPT-5, Gemini"] end UserLayer --> AgentLayer AgentLayer --> HarnessLayer HarnessLayer --> LLMLayer Philipp Schmidのコンピュータの比喩を使うと： ...

Claude Code スキルで AI ワークフローを自動化する — Ralph Loop + YAML 宣言的定義の実践

Claude Code スキルで AI ワークフローを自動化する — Ralph Loop + YAML 宣言的定義の実践 kenfdev さん（@kenfdev）が、Claude Code のスキル機能を活用した AI エージェントのワークフロー自動化について、実践的な技術記事を公開しています。 Claude Code のスキルを中心に、AIエージェントのワークフローを自動化してみた話を書きました。 bash の while ループで claude -p を繰り返す Ralph Loop と、YAML でワークフロー定義を組み合わせて、plan → implement → review → finalize を自律的に回す仕組みです。 TAKTほどの精度には及ばないのですが、それなりに自分のワークフローでは活用できています。 — kenfdev (@kenfdev) 記事の核は「Ralph Loop」と「YAML ワークフロー定義」という 2 つの技術を Claude Code スキルで統合し、plan → implement → review → finalize を自律的に回す仕組みです。 Ralph Loop とは何か起源 Ralph Loop（正式には Ralph Wiggum Loop）は、Geoffrey Huntley が考案した AI 開発自動化パターンです。名前はシンプソンズのキャラクターに由来しますが、仕組み自体は極めてシンプルです。基本構造 1 2 3 4 5 6 7 while true; do result=$(claude -p "プロンプト") # 完了判定 if [[ "$result" == *"COMPLETE"* ]]; then break fi done bash の while ループで claude -p（ヘッドレスモード）を繰り返し呼び出す、たったこれだけです。-p フラグは Claude Code を非対話モードで実行し、結果を標準出力に返します。 ...

Claude Code スキルで「穴場市場」を自動発掘 — コードを書かない AI エージェント活用術

Claude Code スキルで「穴場市場」を自動発掘 — コードを書かない AI エージェント活用術「Claude Code はプログラミング支援ツール」——そう思い込んでいませんか？ @koder_dev さんのポストで紹介された Zenn 記事（s4kura 氏）が話題になっています。Claude Code のスキル機能を使って「穴場市場を探させる」という、コーディングとは全く異なる使い方です。「Claude Code にスキル自作させて穴場市場探させるって Zenn の記事めっちゃ面白かった。いや本当自分の周りも自作 skill でプログラミング作って色んな作業やらせてる、無限に応用効くからなー」— @koder_dev Claude Code スキルとは何か基本概念 Claude Code のスキルは、SKILL.md ファイルに指示を記述することで Claude の機能を拡張する仕組みです。いわば「プロンプトエンジニアリングのパッケージ化」です。スキルなし: 毎回 → 「こういう手順で」「こういう基準で」「こういう形式で」と指示結果 → 指示漏れ、品質のばらつきスキルあり: 毎回 → /skill-name と入力するだけ結果 → 事前定義した手順・基準・形式が自動適用スキルの構造スキルは SKILL.md を中心としたディレクトリです。 my-skill/ ├── SKILL.md # メイン指示（必須） ├── references/ # 判断基準・リファレンス（任意） ├── templates/ # テンプレート（任意） ├── scripts/ # 実行スクリプト（任意） └── examples/ # サンプル出力（任意） SKILL.md は YAML フロントマターとマークダウンコンテンツの 2 部構成です。 ...

Claude Code の /simplify と /batch — AIコーディングは「書く」から「整える・並列で移す」へ

Claude Code の /simplify と /batch — AI コーディングは「書く」から「整える・並列で移す」へ Tsukasansan 氏のポストが、Claude Code v2.1.63 で追加された 2 つの新スキル /simplify と /batch を紹介しています。この 2 つのスキルは、AI の役割を「コードを書く補助ツール」から「品質を整え、大規模な変更を並列実行する分業チーム」へと変える転換点です。 /simplify — PRに出す前の「仕上げ」を自動化 /batch — 大規模マイグレーションを並列で一気に実行 Claude Code の開発者 Boris Cherny 氏も、この 2 つのスキルについて「毎日使っている」と述べています。 /simplify: 3 つのエージェントによる自動コードレビュー /simplify は、実装完了後に実行する「仕上げ」コマンドです。git diff で最近の変更を検出し、3 つの専門レビューエージェントを並列実行します。 3 つのレビュー観点エージェント検出対象具体例コード再利用重複ロジック、既存ユーティリティで置き換え可能なコード同じバリデーションが 3 箇所にコピペされているコード品質冗長な状態管理、パラメータの肥大化、リーク抽象化引数が 8 個ある関数、使われていない変数効率性不要な処理、並列化の機会、ホットパス内の重い処理ループ内での毎回の DB クエリ、不要な再レンダリング 3 つのエージェントが問題を検出するだけでなく、修正まで自動的に適用します。従来のリンターと異なり、高レベルのアーキテクチャ上の問題に対応するのが特徴です。使い方 1 2 3 4 5 6 7 # 基本: 変更ファイルを自動レビュー・修正 /simplify # 特定の観点にフォーカス /simplify focus on memory efficiency /simplify check for unnecessary dependencies /simplify focus on security patterns in the auth flow 実践的なワークフロー実装完了後、PR を出す前に /simplify を実行するだけです。 ...

Claude Code 時代の .env 管理 — 「平文で置かない」秘密情報の新しい守り方

Claude Code 時代の .env 管理 — 「平文で置かない」秘密情報の新しい守り方 @yousukezan 氏のポストが、AI 駆動開発における秘密情報管理の盲点を端的に指摘しています。 Claudeが社内に広がるほど、.envが危ない。Cowork時代に必要なのは「便利さ」より秘密情報の置き場所引用元の Qiita 記事では、Claude Code や Cowork が「チャットで質問するだけのツール」から「ローカルファイルに直接アクセスする開発エージェント」へ進化したことで、従来の .gitignore だけでは守りきれない脅威が生まれていると論じています。本記事では、この問題の技術的背景と実践的な対策を掘り下げます。何が変わったのか — 脅威モデルの転換従来の開発ワークフローでは、.env ファイルの脅威モデルは明確でした。脅威対策 Git リポジトリへの混入 .gitignore に記載本番環境への漏洩環境変数やシークレットマネージャで注入他人のマシンへの流出ローカルに置く前提なので問題なしところが、Claude Code のような AI エージェントがローカルファイルを直接読み書きする時代になると、第三の脅威が加わります。新しい脅威内容 AI エージェントによる読み取り .env がツールの入力コンテキストに載る意図しないクラウド送信読み取った内容が LLM の API リクエストに含まれる組織内の横展開 Cowork で複数人が同じプロジェクトを触る際の露出 IPA「情報セキュリティ 10 大脅威 2026」でも「AI の利用をめぐるサイバーリスク」が初選出で 3 位にランクインしており、この脅威モデルの転換は業界全体の認識となりつつあります。 Claude Code は .env をどう扱うのか自動読み込み問題セキュリティ研究者 Dor Munis 氏の調査によると、Claude Code は .env、.env.local などのファイルを自動的に読み込み、API キーやトークンをメモリに展開していることが判明しています。プロキシ認証情報が意図せず読み込まれ、HTTP 407 エラーとプロキシ料金の異常な高騰として問題が顕在化しました。 ...