AI/LLM

OpenClaw のマークダウン駆動エージェント運用スタック：40日間の実践から学ぶ設計パターン

Google のシニア AI プロダクトマネージャー Shubham Saboo 氏が、OpenClaw エージェントを 40 日間運用した経験から導き出した「マークダウンファイル駆動のエージェント運用スタック」について紹介する。モデルを変えず、蓄積されたマークダウンファイルだけでエージェントが成長していくというアプローチだ。コアコンセプト：マークダウンファイルが成長エンジンこのスタックの最大の特徴は、モデル自体は変わらないという点にある。エージェント間の違いは「蓄積されたマークダウンファイル」にある。データベースもオーケストレーションフレームワークもメッセージキューも不要で、ディスク上のマークダウンファイルがすべてのインテグレーション層として機能する。 3 層スタック構造エージェントの設計は以下の 3 層で構成される： 1. Identity 層（アイデンティティ） SOUL.md がセッション起動時に毎回読み込まれる。ここにはエージェントの人格、役割、原則、関係性が定義される。 1 2 3 4 # SOUL.md - 役割: プロジェクトマネージャー - 原則: 簡潔さを重視、事実ベースで判断 - 性格: Dwight Schrute 的な徹底さ TV キャラクターの名前をエージェントに付けるのが Saboo 氏のテクニックだ。Claude の学習データにキャラクターの性格が含まれているため、「Dwight Schrute のエネルギーで」と伝えるだけで、徹底的で真剣な仕事ぶりが期待できる。 2. Operations 層（行動ルール） AGENTS.md でセッション起動ルーティンとメモリ管理ルールを定義する。運用開始から約 1 週間後に作成するのが推奨される。 1 2 3 4 # AGENTS.md - セッション開始時: MEMORY.md を読み込む - タスク完了時: 日次ログに記録 - エラー発生時: 修正内容をメモリに追記 3. Knowledge 層（記憶・ログ） MEMORY.md は約 2 週間の運用後に初期化する。日次ログをレビューし、繰り返し発生する修正パターンを恒久的なエントリとして蒸留していく。 ...

OpenClawでX運用を自動化する鍵は「ナレッジ管理」にある

OpenClaw を使った X（旧 Twitter）運用で、1週間で79万インプレッション・フォロワー1,000人以上増加という成果報告が話題になっています。この記事では、その成果の背景にある「ナレッジ管理」と「投稿生成プロセス」の重要性について解説します。 OpenClaw × X運用の成果 @ichiaimarketer 氏が報告した成果: 約1週間で79万インプレッションフォロワー1,000人以上増加注目すべきは、この成果は OpenClaw のツール自体の力ではなく、使い方に依存しているという点です。鍵は「ナレッジ管理」 AI に「思いつきで投稿させる」のではなく、蓄積された知識・経験をコンテキストとして与えることが重要です。なぜナレッジ管理が重要かコンテキストの質が出力の質を決める — LLM は与えられた情報から生成するため、ナレッジベースの質が投稿の質に直結する一貫性のあるブランディング — 過去の投稿や知見を蓄積することで、アカウントとしての一貫した声が生まれる専門性の反映 — 自分の専門知識をナレッジとして整理することで、AI が専門的な投稿を生成できる OpenClaw でのナレッジ管理の実践 OpenClaw には Knowledge Management スキルが用意されており、メモリエントリを自動的に分類・整理できます。蓄積された知見は Research、Insight、Pattern などのフォルダに分類され、タイムスタンプ付きの Markdown ファイルとして保存されます。また、OpenClaw の cron システムと組み合わせて定期的に同期することで、ナレッジベースを常に最新の状態に保てます。この整理されたナレッジをスキルから参照することで、投稿生成時に適切なコンテキストを自動的に提供できます。投稿生成プロセス効果的な X 運用のための投稿生成プロセスは以下の流れです: ナレッジの蓄積 — 日々の学びや知見をナレッジベースに追加コンテキストの構築 — 投稿テーマに関連するナレッジを選択 AI による生成 — OpenClaw の bird スキルを使って投稿を生成レビューと投稿 — 生成された内容を確認して投稿 OpenClaw の bird スキル OpenClaw には bird というスキルが組み込まれており、X/Twitter の操作を CLI ベースで行えます: ...

Opik × OpenClaw — AI エージェントの動作を完全可視化するオブザーバビリティプラグイン

OpenClaw で AI エージェントを運用していると、「エージェントが内部で何をしているのか分からない」という課題に直面します。Comet チームが開発した opik-openclaw は、OpenClaw のエージェント動作をトレース・評価・監視できるオブザーバビリティプラグインです。AI の「ブラックボックス」を「ガラスボックス」に変えるツールとして注目されています。 Opik とは Opik は、Comet が開発する Apache 2.0 ライセンスのオープンソース LLM オブザーバビリティプラットフォームです（GitHub で 18,000 以上のスター）。LLM アプリケーションのライフサイクル全体 — 開発・評価・本番監視 — をカバーする統合基盤として設計されています。 Opik の 3 つの柱 1. トレーシング（開発）すべての LLM 呼び出しについて、プロンプト・レスポンス・メタデータ・コスト・レイテンシを詳細に記録します。1 日あたり 4,000 万以上のトレースを処理できるスケーラビリティを持ち、Prompt Playground でプロンプトの実験・比較も可能です。 2. 評価とテスト LLM-as-a-judge によるハルシネーション検出、コンテキスト精度、回答の関連性といった自動評価メトリクスを提供します。データセットを定義して「良い回答とは何か」を基準化し、新バージョンのアプリを自動スコアリングできます。Pytest との統合により CI/CD パイプラインに評価を組み込むことも可能です。 1 2 3 4 5 6 7 8 9 from opik.evaluation.metrics import Hallucination metric = Hallucination() score = metric.score( input="フランスの首都は？", output="パリです。", context=["フランスの首都はパリである。"], ) print(score) # HallucinationResult(score=0.0, reason="...") 3. 本番監視と最適化 ...

opik-openclaw — OpenClaw の AIエージェント動作を可視化するオブザーバビリティツール

OpenClaw を使っていると「AI が裏で何をしているのか分からない」と感じることはありませんか？Comet が開発した opik-openclaw は、OpenClaw のエージェント動作をトレース・可視化するオープンソースプラグインです。AI を「ブラックボックス」から「ガラスボックス」に変えてくれます。 opik-openclaw とは opik-openclaw は、Comet が開発する LLM オブザーバビリティプラットフォーム Opik（GitHub Star 18,000+）の OpenClaw 公式プラグインです。 OpenClaw のエージェントが実行するすべての操作を記録・可視化し、以下の情報をダッシュボードで確認できます。 LLM 呼び出し: 入出力ペア、トークン数、レイテンシ、コストツール実行: どのツールが、いつ、どんな引数で呼ばれたかエージェント委譲: サブエージェントへのタスク委譲の流れ推論プロセス: 最初のメッセージから最終応答までの全会話フローセットアップ（3 コマンド） 1 2 3 4 5 6 7 8 # 1. プラグインをインストール openclaw plugins install @opik/opik-openclaw # 2. 認証情報を設定 openclaw opik configure # 3. ゲートウェイを再起動 openclaw gateway restart 動作確認は以下のコマンドで行えます。 ...

VS Code AI コーディングアシスタントのインストール数推移：GitHub Copilot の急落と競合の台頭

VS Code マーケットプレイスにおける AI コーディングアシスタントの日次インストール数を示すグラフが話題になっている。GitHub Copilot のインストール数が急激に落ち込む「崖」が鮮明に表れており、SaaS 事業者やプロダクトマネージャーにとって示唆に富む内容だ。グラフが示すもの「Daily Install Counts of AI Coding Assistants in Visual Studio Code」と題されたグラフには、以下の 3 つの AI コーディングアシスタントの日次インストール数（30日移動平均）が描かれている。 GitHub Copilot（オレンジ）：2021年末から着実に成長し、2025年後半には日次 150,000 インストール近くまで到達。しかし 2026年に入って急落し、現在は 60,000 前後まで落ち込んでいる Claude Code（シアン）：2025年後半に登場し、直近で急速に伸長。日次 60,000 近くまで上昇 OpenAI Codex（イエロー）：同じく直近で伸びを見せているが、Claude Code よりやや控えめ注目すべきは、GitHub Copilot のインストール数がピークから半分以下に急落している点だ。この「崖」は、競合の台頭と GitHub Copilot 自体の変化の両方が要因と考えられる。急落の背景 GitHub Copilot の課金モデル変更 GitHub Copilot は 2024年12月に無料ティアを導入し、月 2,000 回のコード補完と 50 回のチャットリクエストという制限付きで提供を開始した。同時に、有料プランの価格体系も複雑化している。 Free：月 2,000 補完 / 50 チャット Pro：$10/月 Pro+：$39/月 Business：$19/ユーザー/月 Enterprise：$39/ユーザー/月無料ティアの導入は新規ユーザー獲得を狙った施策だが、既存の有料ユーザーが無料枠で十分と判断して解約するケースもあり得る。また、Microsoft は従来の IntelliCode を廃止し、AI 支援を Copilot に一本化する戦略を取っている。 ...

Claude Code Review — エージェントチームが PR のバグを狩る新機能

Anthropic が Claude Code の新機能「Code Review」を発表した。PR が開かれると、複数のエージェントがチームとして並列にコードレビューを実行し、人間が見落としがちなバグを検出する。開発者の Boris Cherny 氏（@bcherny）は「数週間使って、自分では気づかなかった本物のバグを何度も見つけてくれた」と報告している。仕組み PR がオープンされると、Code Review は以下のステップを実行する: エージェントチームの派遣 — 複数のエージェントが並列に動き、それぞれ異なるクラスの問題（ロジックエラー、セキュリティ脆弱性、コード品質など）を探す検証フェーズ — 候補として検出された問題を実際のコード挙動と照合し、偽陽性をフィルタリングする深刻度ランキング — 検出された問題を重要度順に並べるレビューコメント投稿 — PR に対してサマリーコメント 1 件と、具体的な問題箇所へのインラインコメントを投稿するレビューの深さは PR の規模と複雑さに応じてスケールする。大きく複雑な変更にはより多くのエージェントが投入される。検出精度 Anthropic 社内でのテスト結果: PR サイズ指摘ありの割合平均指摘数大規模（1,000行以上） 84% 7.5件小規模（50行未満） 31% 0.5件特筆すべきは誤検出率が 1% 未満という点だ。エンジニアが「この指摘は間違い」と判定したケースがほとんどなく、検証フェーズによる偽陽性フィルタリングが効果的に機能していることを示している。なぜ必要なのか Cherny 氏によれば、Anthropic のエンジニア一人あたりのコード出力は 2026 年に入って 200% 増加した。AI コーディングエージェントによってコード生成が加速する一方で、レビューがボトルネックになっていた。人間のレビュアーが処理できる量には限界があり、AI が書いたコードも人間が書いたコードも、同じ品質基準でレビューする必要がある。 Code Review はこの問題に対する Anthropic 自身の解答だ。まず社内で使い、効果を確認した上で外部に公開している。利用条件対象プラン: Team / Enterprise（Research Preview）料金: トークン使用量に基づく従量課金。PR サイズと複雑さに応じて平均 $15〜25 レビュー時間: 約 20 分セットアップ: 管理者が GitHub App をインストールし、対象リポジトリを選択。開発者側の追加設定は不要組織レベルでの月間支出上限、リポジトリ単位の有効化制御、レビュー受け入れ率の分析ダッシュボードも用意されている。 ...

Claude Code Review — エージェントチームが PR のバグを狩る新機能

Anthropic が Claude Code の新機能「Code Review」を発表した。PR が開かれると、複数のエージェントがチームとして並列にコードレビューを実行し、人間が見落としがちなバグを検出する。開発者の Boris Cherny 氏（@bcherny）は「数週間使って、自分では気づかなかった本物のバグを何度も見つけてくれた」と報告している。仕組み PR がオープンされると、Code Review は以下のステップを実行する: エージェントチームの派遣 — 複数のエージェントが並列に動き、それぞれ異なるクラスの問題（ロジックエラー、セキュリティ脆弱性、コード品質など）を探す検証フェーズ — 候補として検出された問題を実際のコード挙動と照合し、偽陽性をフィルタリングする深刻度ランキング — 検出された問題を重要度順に並べるレビューコメント投稿 — PR に対してサマリーコメント 1 件と、具体的な問題箇所へのインラインコメントを投稿するレビューの深さは PR の規模と複雑さに応じてスケールする。大きく複雑な変更にはより多くのエージェントが投入される。検出精度 Anthropic 社内でのテスト結果: PR サイズ指摘ありの割合平均指摘数大規模（1,000行以上） 84% 7.5件小規模（50行未満） 31% 0.5件特筆すべきは誤検出率が 1% 未満という点だ。エンジニアが「この指摘は間違い」と判定したケースがほとんどなく、検証フェーズによる偽陽性フィルタリングが効果的に機能していることを示している。なぜ必要なのか Cherny 氏によれば、Anthropic のエンジニア一人あたりのコード出力は 2026 年に入って 200% 増加した。AI コーディングエージェントによってコード生成が加速する一方で、レビューがボトルネックになっていた。人間のレビュアーが処理できる量には限界があり、AI が書いたコードも人間が書いたコードも、同じ品質基準でレビューする必要がある。 Code Review はこの問題に対する Anthropic 自身の解答だ。まず社内で使い、効果を確認した上で外部に公開している。利用条件対象プラン: Team / Enterprise（Research Preview）料金: トークン使用量に基づく従量課金。PR サイズと複雑さに応じて平均 $15〜25 レビュー時間: 約 20 分セットアップ: 管理者が GitHub App をインストールし、対象リポジトリを選択。開発者側の追加設定は不要組織レベルでの月間支出上限、リポジトリ単位の有効化制御、レビュー受け入れ率の分析ダッシュボードも用意されている。 ...

Claude Code Skills 構築完全ガイド — Anthropic 公式 33 ページの要点まとめ

Anthropic が公開した「The Complete Guide to Building Skills for Claude」は、Claude Code のスキル機能を本格的に活用するための 33 ページにわたる公式ガイドです。この記事では、ガイドの要点を日本語でまとめます。 Skills とは何か Skills は、Claude に特定のタスクやワークフローを教えるための再利用可能な指示セットです。フォルダにパッケージ化され、一度作れば Claude.ai、Claude Code、API のすべてで動作します。従来のように毎回プロンプトで細かく指示する代わりに、Skills を使えば「一度教えて、何度でも使える」ようになります。 Skills のファイル構造 my-skill/ ├── SKILL.md # メインの指示ファイル（必須） ├── scripts/ # 補助スクリプト ├── references/ # 参考資料 └── assets/ # アセットファイル重要なルール: メインファイルは必ず SKILL.md（大文字小文字を区別）フォルダ名は kebab-case（例: notion-project-setup） README.md は含めない YAML フロントマターの設計 SKILL.md の冒頭に YAML フロントマターを記述します。ここがスキルの「顔」になります。 1 2 3 4 --- name: deploy-checker description: "本番デプロイ前のチェックリストを実行する。デプロイや本番リリースの話題が出たときに使用する" --- description には何をするかといつ使うかの 2 つを含めることが重要です。Claude はこのメタデータだけでスキルの使用タイミングを判断します。 ...

Claude Code時代の仕様書の役割 — ゼロトピック #337 から考える仕様駆動開発

ゼロトピック（Zero Topic）の #337「Claude Code時代の仕様書の役割」が話題になっている。10X の矢本氏が、生成 AI が開発プロセスに与える影響と、仕様書の役割がどう変わるかを整理した回だ。バイブコーディングの限界と仕様駆動開発 Claude Code のようなAIコーディングエージェントの登場で、コード生成速度は飛躍的に向上した。しかし「バイブコーディング」— AI に任せて探索的にコードを生成するアプローチ — には問題がある。検証負債の蓄積: AI の生成速度が人間の理解・検証速度を上回る意図不明なコード増殖: 内部構造を精査せず先に進み、誰も理解していない領域が広がるデバッグ困難化: コードの意図が不明では根本原因の特定が難しいこうした課題に対する解が仕様駆動開発（Spec-Driven Development: SDD）だ。Thoughtworks Technology Radar Vol.32（2025年4月）で Trial に採用されたこの手法は、「仕様を先に定義し、その仕様に基づいて AI にコードを生成させる」という原則に立つ。仕様書の役割の変化従来の設計書は人間同士のコミュニケーションツールだった。AI との協働では「AI への指示書」としての側面が加わる。 SDD における仕様書の構成は、Kiro が提唱する3層モデルが分かりやすい: ファイル役割 requirements.md ユーザーストーリーと受け入れ基準 design.md アーキテクチャ、シーケンス、設計上の注意 tasks.md 実装計画とタスク分解重要なポイントは、仕様は「唯一の情報源（Single Source of Truth）」として機能し、プロセス駆動はルールブック（プロセスルール）が別途担当するという区別だ。 Claude Code での実践基礎レベル: CLAUDE.md + ステアリングファイル CLAUDE.md に制約・規約・コンテキストを定義 .steering/ 配下に作業バッチフォルダを作成要件定義書・設計書・タスクリストを生成・保存タスクに沿ってコード生成・テスト実施応用レベル: カスタムコマンドの活用 2026年1月に plansDirectory 設定が追加され、/plan モードで作成した計画書を Git 管理できるようになった。さらにカスタムコマンドを使えば、ドメイン知識を埋め込んだ独自のワークフローを構築できる。 ...

freee MCP × Claude Code で確定申告の仕訳1,428件を20分で終わらせた話

minicoohei 氏（@minicoohei）が、freee の公式 MCP サーバーと Claude Code を組み合わせて確定申告の仕訳1,428件をわずか20分で完了させた事例を公開した。手作業なら4〜5時間かかる Amex のクレジットカード明細の仕訳登録を、AI が自動化した。ワークフローの概要 Amex の取引明細（1,428件）を入力データとして用意 — 通常の手作業では1件ずつ勘定科目を判断して登録する必要がある AI が70以上の分類ルールを自動生成 — 取引内容のパターンを分析し、勘定科目の振り分けルールを構築する対話的なルール調整 — 人間との会話を通じてルールを精緻化する。税務リスクのある取引を事前に特定し、適切な処理方法を提案する並列バッチ処理で一括登録 — freee API 経由で全件をエラーゼロで登録する freee MCP とは freee は公式の MCP サーバー（freee-mcp）を OSS として公開している。会計・人事労務・請求書・勤怠・販売の5領域にわたる API を、AI エージェントから操作可能にするインターフェースだ。 Claude Code や Claude Desktop から接続すると、「この請求書を発行して」「今月の経費を集計して」といった自然言語の指示で freee の業務を実行できる。なぜ効果的なのか従来の会計ソフトの自動仕訳機能は、事前に設定したルールに基づく単純なパターンマッチングだった。Claude Code を使うアプローチには以下の利点がある: 文脈理解による分類精度 — 取引先名や摘要の自然言語を理解して勘定科目を判断する。「AWS」なら通信費、「タクシー」なら旅費交通費、といった判断を人間と同等の精度で行える対話による例外処理 — 判断に迷うケースを人間に確認し、その回答を以降のルールに反映するバッチ処理の効率 — MCP 経由で freee API を直接操作するため、GUI での手作業が不要実務での注意点 freee MCP を Claude Code と組み合わせる場合、いくつかの実務的な考慮点がある: ...