AI/LLM

Harness Engineering ベストプラクティス 2026 — AI コーディングエージェントを安定稼働させる設計術

Claude Code や Codex といった AI コーディングエージェントを現場に投入する開発者が増えるなか、「ハーネスエンジニアリング」という新しい実践領域が注目を集めている。逆瀬川氏（@gyakuse）が公開したまとめ記事（読了 54 分）から、要点を紹介する。そもそも「ハーネス」とは何か「ハーネス（harness）」とは、もともと馬具の意味だ。馬の力を人間が制御して活かすための装具一式 — 手綱、鞍、轡（くつわ）などを指す。馬がどれだけ優秀でも、ハーネスなしでは暴走するだけで仕事にならない。ソフトウェアの世界では「テストハーネス」という用語がすでにある。テスト対象のコードを「つなぎ止めて」、入力を与え、出力を検証する枠組みのことだ。テスト対象そのものではなく、テスト対象を正しく動かすための外側の仕組みを指す。 AI コーディングエージェントにおける「ハーネス」もこれと同じ発想だ。AI エージェント（= 馬）は強力だが、そのままでは暴走する。古いドキュメントを信じてしまう、リンターのルールを勝手に緩和する、前のセッションで何をしたか忘れる。エージェントを制御し、安定した成果を引き出すための外側の仕組み全体がハーネスであり、それを設計・構築する技術がハーネスエンジニアリングだ。具体的にハーネスを構成する要素は、大きく 3 つの層に分けられる: 入力層 — エージェントに何を読ませ、何を読ませないかを制御する（AGENTS.md の設計、リポジトリの衛生管理、セッション間の状態引き継ぎ）実行制御層 — エージェントの作業中にリアルタイムで品質を強制する（リンター・フォーマッターの自動実行、計画と実行の分離）検証層 — エージェントの出力が正しいことを確認する（E2E テスト、プリコミットチェック）核心的な洞察は「ハーネスがモデルより重要」という点だ。Morph の分析によると、同じモデルでもハーネスを変えると SWE-bench スコアが 22 ポイント変動するのに対し、モデルの交換では 1 ポイントしか変わらない。開発者の責任は「正しいコードを書く」から「エージェントが確実に正しいコードを生産する環境を設計する」へとシフトしている。 7 つの主要トピック 1. リポジトリ衛生〈入力層〉「衛生（hygiene）」は、ソフトウェア開発で「不要物や汚染を取り除き、健全な状態を保つ」という意味で使われる慣用表現だ（「コードハイジーン」「ブランチハイジーン」なども同様）。ここでは、リポジトリ内に古くなったドキュメントや不正確な情報が溜まらないよう清潔に保つことを指す。人間なら「このメモ、古そうだな」と判断できるが、エージェントは 3 ヶ月前のメモも最新のコードも同じ「事実」として読んでしまう。だから情報の鮮度管理が重要になる。実行可能なアーティファクト（コード、テスト、設定）を優先する説明的ドキュメントは腐敗しやすいため最小化する ADR（Architecture Decision Records）で決定履歴を保全するテストはドキュメントより腐敗に強い最大の敵は「説明的ドキュメントの腐敗」だ。エージェントは「3 ヶ月前のメモ」と「現在の真実」を区別できないため、古い情報が存在するだけで性能が低下する。ハーネスの入力層として、エージェントが読む情報の鮮度と正確性を保つことが最初のステップになる。 2. 決定論的ツールで品質を強制する〈実行制御層〉「決定論的（deterministic）」とは、同じ入力に対して毎回必ず同じ結果を返すという意味だ。リンターやフォーマッターがその典型で、たとえば「未使用の変数がある」というコードを渡せば、何度実行しても必ず同じ警告を返す。気分や文脈によって判断が揺れることがない。対照的に、LLM は非決定論的だ。同じコードを渡しても、実行するたびにチェックの粒度や指摘内容がブレる。「インデントを揃えて」と指示しても、ある時はスペース 2 つ、別の時はタブで揃えるかもしれない。だからこそ、機械的に判定できるルール（構文エラー、未使用変数、フォーマット）は LLM に任せず、決定論的ツールに委ねるのが原則だ。ここで重要なのが「ほぼ毎回」と「例外なく毎回」の差だ。CLAUDE.md に「リンターを実行せよ」と書くだけでは前者にとどまる。コンテキストウィンドウの消費が進むと、エージェントはリンターの存在を忘れてしまうからだ。Claude Code の Hook（特定のライフサイクルイベントで自動実行されるスクリプト）で強制すれば後者になる。 ...

Impeccable — AI コーディングツールのフロントエンド設計を底上げするスキルライブラリ

AI コーディングツール（Claude Code、Cursor、Gemini CLI など）で UI を生成すると、「動くけど見た目がイマイチ」になりがちだ。Impeccable は、AI に設計のボキャブラリーを教えることで、生成される UI の品質を引き上げるスキルライブラリだ。 Impeccable とは Impeccable は、Paul Bakaus 氏が開発した AI コーディングツール向けの設計スキル拡張だ。Anthropic の公式 frontend-design スキルをベースに、17個のコマンドと厳選されたアンチパターン集を提供する。「派手なデザイン」ではなく「洗練された仕上がり」を目指すのが特徴で、中国のインディー開発者コミュニティでも注目を集めている。対応ツール Cursor Claude Code Gemini CLI Codex CLI VS Code Copilot Google Antigravity Kiro インストール方法 npx（推奨） 1 npx skills add pbakaus/impeccable Claude Code の場合 1 2 3 4 5 # プロジェクト単位 cp -r dist/claude-code/.claude your-project/ # グローバル cp -r dist/claude-code/.claude/* ~/.claude/ Cursor の場合 1 cp -r dist/cursor/.cursor your-project/ Nightly チャンネルの使用と Agent Skills の有効化が必要。 ...

Karpathy の autoresearch — AIが寝ている間に100回実験を回す仕組み

Andrej Karpathy が公開した autoresearch は、AI エージェントが単一 GPU 上で自律的に ML 実験を繰り返すツールです。わずか約630行の Python コードで「コード修正 → 学習 → 評価 → 改善」のループを自動化し、研究の競争軸を「コード品質」から「改善ループの速度」へと変えようとしています。 autoresearch とは autoresearch のコンセプトはシンプルです: AIエージェントに小さいが本物の LLM トレーニング環境を渡し、一晩中自律的に実験させるエージェントはトレーニングコード（train.py）を自動修正し、5分間のトレーニングを実行、検証損失（val_bpb）が改善したかを確認し、結果に基づいて次の実験に進みます。プロジェクト構成 autoresearch はたった3つのファイルで構成されています: ファイル役割編集者 prepare.py データ準備・ランタイムユーティリティ変更不可 train.py モデル・オプティマイザ・学習ループ AIエージェント program.md エージェントへの指示書人間従来のML研究では Python ファイルを直接編集しますが、autoresearch では Markdown ファイル（program.md）でエージェントに指示を与えるという設計になっています。人間が行うのは「プログラムのプログラミング」です。固定時間予算という設計判断 autoresearch の重要な設計判断は、全てのトレーニングをちょうど5分間に固定していることです: 1時間あたり約12回の実験が可能一晩（8時間）で約100回の実験を自動実行プラットフォームに依存せず公平な比較が可能 1 2 3 4 5 6 # セットアップ uv sync uv run prepare.py # データ準備（初回のみ、約2分） # 単一実験の実行 uv run train.py # 約5分で完了エージェントの起動は、Claude などの AI に対して以下のように指示するだけです: ...

OpenAI Symphony — AI エージェントを自律的にオーケストレーションするオープンソースフレームワーク

OpenAI が Symphony というオープンソースの自動化基盤をリリースしました。Issue トラッカーから課題を読み取り、課題ごとに隔離ワークスペースを作成し、AI エージェントに実装を走らせるオーケストレーションフレームワークです。 Symphony とは Symphony は、AI コーディングエージェントを手動のプロンプト操作から構造化された自律実行へと移行させるためのフレームワークです。Elixir / Erlang BEAM ランタイム上に構築されており、長時間実行される独立した「実装ラン（implementation run）」を高い並行性と耐障害性で管理します。従来の「AI にコードを書かせて PR を出す」という手動プロンプト型のワークフローを、カンバンボードのタスクカードを移動するだけで管理できるようにします。動作の仕組み Symphony の基本的な流れは以下の通りです: 課題の読み取り — Issue トラッカー（現在は Linear をサポート）からタスクを継続的に監視隔離ワークスペースの作成 — 各課題に対して独立したワークスペースを生成エージェントの実行 — ワークスペース内でコーディングエージェントセッションを実行成果物の提出 — CI ステータス、PR レビューフィードバック、複雑度分析、操作動画などの「作業証明」を提供承認とマージ — タスクが承認されると、エージェントが安全に PR をマージ技術的な特徴 WORKFLOW.md によるエージェント制御エージェントのプロンプトやランタイム設定は、リポジトリ内の WORKFLOW.md に直接保存されます。これにより、AI の動作指示がコードとしてバージョン管理され、変更対象のブランチと同期されます。 Elixir / BEAM ランタイムの採用 Elixir と Erlang/BEAM ランタイムを採用することで、以下のメリットがあります: 高い並行性 — 複数のエージェントセッションを同時に管理耐障害性 — 個別の実装ランが失敗してもシステム全体に影響しない長時間実行への対応 — エージェントの長時間稼働を安定的にサポート Poll-Dispatch-Resolve-Land ワークフロー Symphony の中核となるワークフローパターンです: ...

OpenClaw で月400ドルの AI チームを構築 — 18歳がコーディング経験ゼロで実現した方法

18歳、コーディング経験ゼロ、高校を卒業したばかりの起業家が OpenClaw を使って15人の AI エージェントチームを構築し、月額400ドルで24時間稼働させている事例が話題になっています。GitHubやIDEの知識がなくても、AI チームを組織できる時代が来ています。 OpenClaw とは OpenClaw は、Peter Steinberger が開発したオープンソースの自律型 AI エージェントです。2026年3月時点で GitHub スター数は約247,000、フォーク数は47,700を超え、爆発的な成長を遂げています。完全にオープンソースでサブスクリプションや API 費用が不要なため、実際にかかるコストはハードウェアと電気代のみ。専用サーバー（OVH で月45ドル、Hetzner で月40ドル程度）を使えば、低コストで本格的な AI チームを運用できます。 AI チームの構成 YouTube 動画「I Built a Full AI Team Inside OpenClaw for $400/Month」（4.2万回再生）では、以下のような AI エージェントチームの構築が紹介されています: エージェント名役割 ATLAS 戦略・計画策定 SCRIBE ドキュメント・コンテンツ作成 PIXEL デザイン・ビジュアル NOVA リサーチ・分析 SENTINEL 監視・品質管理 CLOSER セールス・クロージング CLAND コーディング・開発 CLIP 動画・メディア編集各エージェントは agents/ フォルダ内にサブフォルダとして定義され、それぞれの AGENTS.md に役割・ツール・振る舞いが記述されます。セットアップの仕組み OpenClaw のマルチエージェント構成は以下のような構造です: workspace/ ├── agents/ │ ├── atlas/ │ │ └── AGENTS.md # 戦略担当の定義 │ ├── scribe/ │ │ └── AGENTS.md # ライティング担当の定義 │ ├── cland/ │ │ └── AGENTS.md # 開発担当の定義 │ └── ... └── program.md # チーム全体への指示エージェントは MCP スキルを通じて各種ツールと連携し、Reddit や Twitter のシグナル収集、トレンド分析、コンテンツ生成などを自律的に実行します。 ...

OpenClaw とは何か：話題のオープンソース AI エージェントを徹底解説

2025年末に「Clawdbot」として登場し、2026年に入ってから GitHub スター数20万超を記録した OpenClaw が大きな話題になっています。この記事では、OpenClaw の概要、主要機能、セキュリティ上の注意点、そしてセットアップ方法までを解説します。 OpenClaw とは OpenClaw は、Peter Steinberger 氏が開発したオープンソースの AI エージェントフレームワークです。従来のチャットボットが「テキストを生成する」だけだったのに対し、OpenClaw は実際にタスクを実行する点が最大の特徴です。公式サイトのキャッチフレーズは “The AI That Actually Does Things” 。ファイル操作、シェルコマンドの実行、Web ブラウジング、フォーム入力など、PC 上のさまざまな操作を AI に任せることができます。主要機能チャットプラットフォーム統合 WhatsApp、Telegram、Discord、Slack、Signal、iMessage など、普段使っているメッセージアプリから自然言語で指示を出せます。専用アプリや Web サイトを開く必要はありません。実行可能なタスクメール管理: 未読メールの自動分析・優先順位付け、定型返信の作成スケジュール調整: カレンダー確認、飲食店予約の自動実施開発支援: GitHub コード履歴の確認、プルリクエストレビューブラウザ制御: Web サイト閲覧、フォーム入力、データ抽出の自動化ローカルファースト設計個人デバイスやローカルサーバーで動作し、Raspberry Pi のような低価格デバイスでも実行可能です。クラウド利用時も暗号化環境を採用しています。永続的メモリユーザーの好みやコンテキストを記憶し、使い込むほど賢くなる仕組みが組み込まれています。セットアップ方法 Node.js 22 以上が必要です。 1 npm install -g openclaw@latest インストール後、オンボーディングウィザードで API 設定を完了します。LLM バックエンドは Claude、GPT、Ollama 経由のローカルモデルに対応しており、自分の API キーを使う方式（BYOK）です。 ...

Paperclip — AIエージェントで会社を自律運営するオープンソースOS

AIエージェントに役職・組織図・予算・目標を与え、24時間自律的に会社を運営させる——そんなコンセプトのオープンソースプロジェクト「Paperclip」が公開され、注目を集めている。 Paperclip とは Paperclip は、複数の AI エージェントを「社員」として組織化し、会社として機能させるためのオーケストレーションプラットフォームだ。 “If OpenClaw is an employee, Paperclip is the company.” 個々の AI エージェントを個別に管理するのではなく、組織図・予算・ガバナンス・目標整合・タスク調整といった会社レベルのインフラを提供する。 GitHub: https://github.com/paperclipai/paperclip 公式サイト: https://paperclip.ing/ ライセンス: MIT 主な機能エージェントの組織化組織図（Org Chart）: 階層構造、役職、レポートラインを定義目標整合（Goal Alignment）: 会社のミッションからプロジェクト目標、個別タスクまで文脈が伝播マルチカンパニー対応: 1つのデプロイで複数の会社を完全分離して管理対応エージェント Claude、OpenClaw、Codex、Cursor、Bash スクリプト、HTTP Webhook など、ハートビートシグナルを受信できる任意のランタイムと連携できる。コスト管理エージェントごとに月次予算を設定し、使用量80%で警告、100%で自動停止する。暴走的なトークン消費を防ぐ仕組みが組み込まれている。ガバナンスと監査人間による承認ゲート（採用・戦略変更時）設定変更のバージョニングとロールバック全ての会話・意思決定・ツール呼び出しの追跡ログいつでもエージェントの一時停止・再割り当て・終了が可能セットアップ 1 2 3 4 5 6 7 8 # クイックスタート npx paperclipai onboard --yes # 手動インストール git clone https://github.com/paperclipai/paperclip.git cd paperclip pnpm install pnpm dev API は http://localhost:3100 で起動し、組み込みの PostgreSQL データベースを使用する。要件は Node.js 20+ と pnpm 9.15+。 ...

Qwen3.5-27B：個人PCで動く高性能LLMの実力と使い方

Alibaba Cloud の Qwen チームが 2026 年 2 月にリリースした Qwen3.5-27B は、27B パラメータという中規模サイズながら上位モデルに匹敵する性能を発揮する密（dense）モデルです。メモリ効率に優れ、量子化を活用すれば個人の PC でも快適に動作するため「自分専用 AI」を構築するのに最適な選択肢として注目されています。 Qwen3.5-27B の主な特徴アーキテクチャ Qwen3.5-27B は MoE（Mixture of Experts）ではなく、全パラメータが推論時に活性化される密モデル（dense model）です。Gated Delta Networks と Feed Forward Networks を組み合わせた構造で、高い計算密度を実現しています。パラメータ数: 27B（全パラメータ活性化）コンテキスト長: 262K トークン（最大 1M まで拡張可能）対応言語: 201 言語マルチモーダル: 視覚・言語の統合能力を搭載ベンチマーク性能 27B というサイズにもかかわらず、主要ベンチマークで際立った成績を残しています。ベンチマークスコア MMLU-Pro 86.1% GPQA Diamond 85.5% SWE-bench Verified 72.4% LiveCodeBench 80.7% IFEval 95.0% HMMT（数学） 92.0% 特に SWE-bench Verified で 72.4% は GPT-5 mini と同等の数値であり、オープンウェイトの 27B 密モデルとしては驚異的な結果です。コーディング、数学、指示追従の各タスクで中規模モデルカテゴリをリードしています。 ...

深圳が世界初の OpenClaw・一人企業支援策を発表 — AI エージェント時代のソロ起業を後押し

深圳市龍崗区が「OpenClaw および OPC（One-Person Company）発展支援に関する若干の措置」を発表した。AI エージェントフレームワーク OpenClaw と「一人企業」モデルを対象にした政府支援策としては、中国初、おそらく世界初の試みだ。荒井健一氏（@aarai666）のツイートで紹介されたこの政策の要点を整理する。 OpenClaw とは何か OpenClaw はオーストリアの Peter Steinberger 氏が開発したオープンソースの AI アシスタントだ。フライトの予約からメール整理まで幅広いタスクを自律的にこなし、個人が数人分のチームに匹敵する生産性を発揮できる。この仕組みを活用して一人で会社を運営する「OPC（One-Person Company）」というコンセプトが、中国を中心に急速に広がっている。中国では無料インストールイベントに数千人が参加するなど爆発的な人気を見せており、李強首相が全国人民代表大会で「スマートエージェント」（OpenClaw を含む概念）に言及するほどの注目度だ。深圳・龍崗区の支援策龍崗区の政策は、概念の認知からわずか約 3 週間で正式な支援策にまとめ上げるスピード感を見せた。支援は大きく 3 つの柱で構成される。 1. 導入・開発支援「ロブスターサービスゾーン」を設置し無料で OpenClaw の導入サービスを提供するプラットフォームに、最大 200 万元（約 4,000 万円）の補助金コード貢献やスキルパッケージ開発を行う開発者への追加資金支援関連技術パッケージの開発・配布企業に最大 200 万元の助成金 2. 計算・データリソースデータサービス、AI NAS ハードウェア、大規模モデル API 利用料の 30〜50% を補助 OPC コミュニティに新規入居する企業に 3 ヶ月間の無料計算リソースを提供 3. 総合的な起業支援 2 ヶ月間の無料住居提供 18 ヶ月間の割引オフィススペース人材定着助成金として最大 10 万元（約 200 万円）エクイティ投資として最大 1,000 万元（約 2 億円）政策の戦略的目標は「初期の起業コストをゼロ水準まで引き下げ、深圳を AI エージェントスタートアップのハブにする」ことだ。 ...

Claude Codeのハルシネーション対策 — Anti-Hallucination Protocolという考え方

Claude Code などの LLM エージェントを業務で使う際、最大のリスクは**ハルシネーション（幻覚）**です。プロンプトの改善ばかりが注目されがちですが、本当に必要なのは「仕組みで縛る」アプローチです。きっかけとなった事故ある開発者が実際に遭遇した事故が、この議論のきっかけです: which コマンドの結果だけで「未インストール」と診断されたが、コードは PATH 外のディレクトリを直接参照していた。ログを1行も読まずに断言。 LLM エージェントは自信に満ちた口調で誤った結論を出すことがあり、人間がそれを鵜呑みにしてしまうリスクがあります。 Anti-Hallucination Protocol の4つの柱提唱されている Anti-Hallucination Protocol は、以下の4つのルールで構成されます: 1. 事実主張にはツール実行による検証を義務化 LLM が「〜がインストールされていない」「〜が原因です」と主張する場合、必ず対応するコマンドやツールを実行して裏付けを取ることを求めます。推測だけで結論を出すことを許容しません。 2. 禁止パターンの明示以下の4つのパターンを明示的に禁止します: パターン説明推測診断十分な証拠なしに原因を断定する確認なし否定実際に確認せず「存在しない」「動かない」と主張する記憶による主張過去の学習データだけに基づく事実主張自信に満ちた誤り高い確信度で不正確な情報を提供する 3. 違反時のインシデント記録と伝播ハルシネーションが検出された場合、インシデントとして記録し、全プロジェクト横断で伝播させます。これにより同じ失敗パターンを繰り返さない仕組みを構築します。 4. プロジェクト設定への組み込み CLAUDE.md や類似の設定ファイルにルールを記述し、プロジェクト単位で一貫したガードレールを維持します。 2026年のハルシネーション対策の現状 2026年3月時点で、各 LLM のハルシネーション率は改善が進んでいます。LLM Hallucination Index 2026 によると、Claude Sonnet 4.6 は BS 検出成功率 91.0%、誤検出率 3.0% とトップクラスの精度を示しています。しかし、モデル性能の向上だけでは不十分です。特に以下の場面ではハルシネーションが発生しやすいことが報告されています: コンテキスト圧縮後: 長い会話でコンテキストが圧縮されると、計画と実装の乖離が起きやすい Plan Mode での実装フェーズ: 計画作成後の実装で、計画にない機能を追加してしまう実践的な対策 CLAUDE.md への記述例 1 2 3 4 5 6 ## Anti-Hallucination Rules - ファイルの存在確認は必ず `ls` や `cat` で実行すること - パッケージのインストール状況は `which` だけでなく、実際のインポートやバージョン確認で検証すること - エラーの原因を主張する前に、必ずログファイルを読むこと - 「〜のはずです」「おそらく〜」という推測を事実として扱わないこと CLEO のようなツールの活用 CLEO は Claude Code 向けのタスク管理ツールで、4層の Anti-Hallucination 保護と SQLite による不変の監査証跡を提供します。 ...