LLM | hdknr blog

Paperclip — AIエージェントで会社を自律運営するオープンソースOS

AIエージェントに役職・組織図・予算・目標を与え、24時間自律的に会社を運営させる——そんなコンセプトのオープンソースプロジェクト「Paperclip」が公開され、注目を集めている。 Paperclip とは Paperclip は、複数の AI エージェントを「社員」として組織化し、会社として機能させるためのオーケストレーションプラットフォームだ。 “If OpenClaw is an employee, Paperclip is the company.” 個々の AI エージェントを個別に管理するのではなく、組織図・予算・ガバナンス・目標整合・タスク調整といった会社レベルのインフラを提供する。 GitHub: https://github.com/paperclipai/paperclip 公式サイト: https://paperclip.ing/ ライセンス: MIT 主な機能エージェントの組織化組織図（Org Chart）: 階層構造、役職、レポートラインを定義目標整合（Goal Alignment）: 会社のミッションからプロジェクト目標、個別タスクまで文脈が伝播マルチカンパニー対応: 1つのデプロイで複数の会社を完全分離して管理対応エージェント Claude、OpenClaw、Codex、Cursor、Bash スクリプト、HTTP Webhook など、ハートビートシグナルを受信できる任意のランタイムと連携できる。コスト管理エージェントごとに月次予算を設定し、使用量80%で警告、100%で自動停止する。暴走的なトークン消費を防ぐ仕組みが組み込まれている。ガバナンスと監査人間による承認ゲート（採用・戦略変更時）設定変更のバージョニングとロールバック全ての会話・意思決定・ツール呼び出しの追跡ログいつでもエージェントの一時停止・再割り当て・終了が可能セットアップ 1 2 3 4 5 6 7 8 # クイックスタート npx paperclipai onboard --yes # 手動インストール git clone https://github.com/paperclipai/paperclip.git cd paperclip pnpm install pnpm dev API は http://localhost:3100 で起動し、組み込みの PostgreSQL データベースを使用する。要件は Node.js 20+ と pnpm 9.15+。 ...

Qwen3.5-27B：個人PCで動く高性能LLMの実力と使い方

Alibaba Cloud の Qwen チームが 2026 年 2 月にリリースした Qwen3.5-27B は、27B パラメータという中規模サイズながら上位モデルに匹敵する性能を発揮する密（dense）モデルです。メモリ効率に優れ、量子化を活用すれば個人の PC でも快適に動作するため「自分専用 AI」を構築するのに最適な選択肢として注目されています。 Qwen3.5-27B の主な特徴アーキテクチャ Qwen3.5-27B は MoE（Mixture of Experts）ではなく、全パラメータが推論時に活性化される密モデル（dense model）です。Gated Delta Networks と Feed Forward Networks を組み合わせた構造で、高い計算密度を実現しています。パラメータ数: 27B（全パラメータ活性化）コンテキスト長: 262K トークン（最大 1M まで拡張可能）対応言語: 201 言語マルチモーダル: 視覚・言語の統合能力を搭載ベンチマーク性能 27B というサイズにもかかわらず、主要ベンチマークで際立った成績を残しています。ベンチマークスコア MMLU-Pro 86.1% GPQA Diamond 85.5% SWE-bench Verified 72.4% LiveCodeBench 80.7% IFEval 95.0% HMMT（数学） 92.0% 特に SWE-bench Verified で 72.4% は GPT-5 mini と同等の数値であり、オープンウェイトの 27B 密モデルとしては驚異的な結果です。コーディング、数学、指示追従の各タスクで中規模モデルカテゴリをリードしています。 ...

Claude Codeのハルシネーション対策 — Anti-Hallucination Protocolという考え方

Claude Code などの LLM エージェントを業務で使う際、最大のリスクは**ハルシネーション（幻覚）**です。プロンプトの改善ばかりが注目されがちですが、本当に必要なのは「仕組みで縛る」アプローチです。きっかけとなった事故ある開発者が実際に遭遇した事故が、この議論のきっかけです: which コマンドの結果だけで「未インストール」と診断されたが、コードは PATH 外のディレクトリを直接参照していた。ログを1行も読まずに断言。 LLM エージェントは自信に満ちた口調で誤った結論を出すことがあり、人間がそれを鵜呑みにしてしまうリスクがあります。 Anti-Hallucination Protocol の4つの柱提唱されている Anti-Hallucination Protocol は、以下の4つのルールで構成されます: 1. 事実主張にはツール実行による検証を義務化 LLM が「〜がインストールされていない」「〜が原因です」と主張する場合、必ず対応するコマンドやツールを実行して裏付けを取ることを求めます。推測だけで結論を出すことを許容しません。 2. 禁止パターンの明示以下の4つのパターンを明示的に禁止します: パターン説明推測診断十分な証拠なしに原因を断定する確認なし否定実際に確認せず「存在しない」「動かない」と主張する記憶による主張過去の学習データだけに基づく事実主張自信に満ちた誤り高い確信度で不正確な情報を提供する 3. 違反時のインシデント記録と伝播ハルシネーションが検出された場合、インシデントとして記録し、全プロジェクト横断で伝播させます。これにより同じ失敗パターンを繰り返さない仕組みを構築します。 4. プロジェクト設定への組み込み CLAUDE.md や類似の設定ファイルにルールを記述し、プロジェクト単位で一貫したガードレールを維持します。 2026年のハルシネーション対策の現状 2026年3月時点で、各 LLM のハルシネーション率は改善が進んでいます。LLM Hallucination Index 2026 によると、Claude Sonnet 4.6 は BS 検出成功率 91.0%、誤検出率 3.0% とトップクラスの精度を示しています。しかし、モデル性能の向上だけでは不十分です。特に以下の場面ではハルシネーションが発生しやすいことが報告されています: コンテキスト圧縮後: 長い会話でコンテキストが圧縮されると、計画と実装の乖離が起きやすい Plan Mode での実装フェーズ: 計画作成後の実装で、計画にない機能を追加してしまう実践的な対策 CLAUDE.md への記述例 1 2 3 4 5 6 ## Anti-Hallucination Rules - ファイルの存在確認は必ず `ls` や `cat` で実行すること - パッケージのインストール状況は `which` だけでなく、実際のインポートやバージョン確認で検証すること - エラーの原因を主張する前に、必ずログファイルを読むこと - 「〜のはずです」「おそらく〜」という推測を事実として扱わないこと CLEO のようなツールの活用 CLEO は Claude Code 向けのタスク管理ツールで、4層の Anti-Hallucination 保護と SQLite による不変の監査証跡を提供します。 ...

OpenRouter で AI モデルを一元管理する — コスト削減と効率化の実践

AI モデルの利用が増えるにつれ、複数のプロバイダの API キーを管理する煩雑さやコストの把握が難しくなっていく。OpenRouter を使えば、1つの API キーで複数の AI モデルにアクセスでき、コスト管理も一元化できる。 OpenRouter とは OpenRouter は、複数の AI モデルプロバイダ（OpenAI、Anthropic、Google、Meta など）のモデルに単一の API エンドポイントからアクセスできるルーティングサービスだ。OpenAI 互換の API 形式を採用しているため、既存のコードからの移行も容易になっている。料金体系 OpenRouter は無料から始められる。クレジットカードの登録も不要だ。無料モデル: DeepSeek V3/R1、Google、Meta、Mistral など約27種類のモデルが無料で利用可能（1日50リクエスト、1分20リクエストの制限あり）有料モデル: Claude や GPT-4 などのプレミアムモデルはプロバイダの正規料金で従量課金。最低金額やロックインなし BYOK（自分の API キー持ち込み）: 月100万リクエストまで無料。以降は通常料金の5%の手数料 OpenRouter を使う3つのメリット 1. コスト効率の向上各プロバイダと個別に契約する代わりに、OpenRouter 経由で利用することで支出を一元管理できる。用途に応じて安価なモデルと高性能なモデルを使い分けることで、全体のコストを最適化できる。 2. API キーの一元管理複数のプロバイダの API キーを管理する必要がなくなる。1つの OpenRouter API キーだけで、さまざまなモデルにアクセスできる。 1 2 # OpenRouter API キーを設定するだけで複数モデルにアクセス可能 export OPENROUTER_API_KEY="sk-or-..." 3. 最新モデルへの素早い切り替え新しいモデルがリリースされた際、OpenRouter 上で利用可能になればすぐに試すことができる。プロバイダごとにアカウント登録や API キー発行をする必要がない。 ...

# OpenHands × Ollama ローカルLLM実践記 — Mac Studio M3 Ultra で動かすまでの全記録

OpenHands × Ollama ローカルLLM実践記 — Mac Studio M3 Ultra で動かすまでの全記録 TL;DR: OpenHands（旧OpenDevin）をMac Studio M3 Ultra（96GB）+ Ollama + Qwen3-Coder 30B で動かそうとした。Docker-in-Docker のビルド問題、Playwright依存、ランタイムイメージ手動構築を経てUI起動まで到達したが、30Bモデルのtool calling精度不足で実用には至らなかった。 1. OpenHands とは OpenHands（旧 OpenDevin）は、オープンソースのAIコーディングエージェントプラットフォーム。75以上のLLMプロバイダーに対応し、SWE-bench で Qwen3-Coder 使用時に 69.6% のスコアを記録している。公式リポジトリ: https://github.com/All-Hands-AI/OpenHands 特徴: Web UI でブラウザから操作 Docker サンドボックスで安全にコード実行 CodeActAgent による自律的なタスク遂行 Playwright 統合によるブラウザ操作 2. 動機 — なぜ OpenHands を試したか前回の実験で Qwen Code（CLI エージェント）を Ollama + Qwen3-Coder 30B で動かしたが、複雑な multi-step タスク（GitHub PR レビューなど）で tool calling が破綻する問題に直面した。 OpenHands は SWE-bench で高スコアを出しており、エージェントスキャフォールディングの力で同じ 30B モデルでも改善されるのでは？という仮説を検証するために試した。 ...

「決定性のないソフトウェア」の設計と評価 × t_wada氏の視点とskill-creatorが実装したTDD→EDD移行パターン

「決定性のないソフトウェア」をどう設計し評価するか — t_wada 氏の視点と skill-creator が実装した答え和田卓人（@t_wada）氏が X で言及した、skill-creator の設計に関するコメントが注目を集めています。 skill-creator いい感じで動作すると思っていたら中身がこのようになっていたのか。決定性のないソフトウェアをどう実践的に設計して評価するかといった観点でも参考になるエントリ。 t_wada 氏は、テスト駆動開発（TDD）の日本における第一人者であり、Kent Beck 著『テスト駆動開発』の翻訳者、power-assert-js の作者として知られるプログラマです。その t_wada 氏が「決定性のないソフトウェアの設計と評価」という観点で skill-creator を評価しています。元記事は逆瀬川ちゃん氏のブログ「skill-creator から学ぶ Skill 設計と、Orchestration Skill の作り方」です。本記事では、t_wada 氏の指摘する「決定性のないソフトウェア」の設計問題に焦点を当て、skill-creator がどのような解を実装しているかを解説します。「決定性のないソフトウェア」とは何か従来のソフトウェアとの違い決定的ソフトウェア（従来）: 入力 A → 常に出力 X 入力 B → 常に出力 Y → 「2 + 2 = 4」を assert できる非決定的ソフトウェア（LLM ベース）: 入力 A → 出力 X1, X2, X3...（毎回異なる）入力 B → 出力 Y1, Y2, Y3...（毎回異なる） → 「正解」が一意に定まらない LLM の出力は確率的です。同じプロンプトを送っても、temperature やサンプリングの影響で異なる結果が返ります。従来の assertEqual(expected, actual) というテスト手法が通用しない世界です。 ...

Agentic AI の仕組み — 4層アーキテクチャで理解する「考えて動く AI」の全体像

Agentic AI の仕組み — 4層アーキテクチャで理解する「考えて動く AI」の全体像 Ronald van Loon さん（@Ronald_vanLoon）が、@Python_Dv 作成の Agentic AI アーキテクチャ図を共有し、注目を集めています。 How #AgenticAI works https://x.com/Ronald_vanLoon/status/2029305639546060814 このインフォグラフィックは、Agentic AI の動作原理を Input Sources → AI Processing → Action Layer → Output の4層で整理しています。「生成 AI と何が違うのか」「なぜ自律的に動けるのか」を、この4層構造を軸に解説します。生成 AI と Agentic AI の根本的な違いまず前提を整理します。生成 AI（Generative AI）と Agentic AI は、AI の進化の段階が異なります。観点生成 AI Agentic AI 基本動作プロンプトに対してコンテンツを生成目標に向かって自律的に行動姿勢受動的（聞かれたら答える）能動的（自分で判断して動く）タスク範囲 1回のやり取りで完結複数ステップを跨いで継続外部連携なし（テキスト入出力のみ） API・ツール・データベースと連携記憶セッション内のみセッション間で永続化可能自己修正なしエラーを検知して自動リカバリー IBM は両者の関係を端的にまとめています。「生成 AI は考えて話す。Agentic AI は計画して実行する」。 ...

Agentic AI 学習ロードマップ — 「フルスタックインテリジェンス」を9ヶ月で習得する体系的な道筋

Agentic AI 学習ロードマップ — 「フルスタックインテリジェンス」を9ヶ月で習得する体系的な道筋 @ingliguori 氏（Giuliano Liguori）のポストが、Agentic AI を学ぶためのロードマップを共有しています。 Roadmap to learn Agentic AI: AI fundamentals → Python + frameworks → LLMs → Agents architecture → Memory + RAG → Planning & decision-making → RL & self-improvement → Deployment → Real-world automation Agentic AI = full-stack intelligence. 「Agentic AI = フルスタックインテリジェンス」というフレーズが示すように、AI エージェントの開発には基礎数学からデプロイまで、フルスタックの知識が求められます。本記事では、このロードマップを複数の学習リソースと照合しながら、各段階で何を学び、どのツールを使い、どこまでを目指すのかを体系的に解説します。ロードマップの全体像 Liguori 氏が示した9ステップを、Scaler の9ヶ月ロードマップと roadmap.sh の AI Agents ロードマップを参考に、時系列で整理します。月0-1 AI Fundamentals ← 数学 + ML 基礎月1-2 Python + Frameworks ← API + ライブラリ月2-3 LLMs ← Transformer + プロンプト月3-4 Agents Architecture ← ReAct + ツール使用月4-5 Memory + RAG ← ベクトル DB + 検索拡張月5-6 Planning & Decision ← 計画 + マルチエージェント月6-7 RL & Self-improvement ← フィードバック + 自律性月7-8 Deployment ← MLOps + 監視月8-9 Real-world Automation ← ポートフォリオ + 実案件 Step 1: AI Fundamentals（月0-1）学ぶこと分野具体的な内容線形代数ベクトル、行列演算、固有値分解、SVD 微積分勾配、偏微分、最適化確率・統計ベイズの定理、分布、仮説検定 ML 基礎教師あり/なし学習、評価指標推奨リソース Khan Academy — 数学基礎 “Mathematics for Machine Learning”（書籍） StatQuest — 統計の直感的理解この段階のゴール「なぜニューラルネットワークが動くのか」を数学的に説明できること。数式を書ける必要はないが、勾配降下法やベイズ推論の直感を持つことが重要です。 ...

Agentic AIの周期表 — 66要素で読み解くAIエージェント構築の全体像

Agentic AI の周期表 — 66 要素で読み解く AI エージェント構築の全体像 @ingliguori（Giuliano Liguori）氏のポストが話題になっています。 Agentic AI now has its own “Periodic Table”. From: LLM, RAG, RL to PLAN, MAS, LTM to SAFE, HUMAN oversight to HR, MKT, LEGAL use cases. Autonomous AI = memory + planning + tools + safety + collaboration. It’s a system, not a prompt. Capital One の Chief Scientist である Prem Natarajan 氏が、AI エージェント構築に必要な 66 の要素を化学の周期表のように体系化した「Agentic AI Periodic Table」を公開しました。LLM や RAG といった基盤技術から、メモリシステム、安全性プロトコル、業務適用まで、エージェント開発の全領域を一枚の表に凝縮しています。 ...

AIVideo Agent — 「動画版 OpenClaw」が24時間コンテンツパイプラインを自律運用する仕組み

AIVideo Agent — 「動画版 OpenClaw」が24時間コンテンツパイプラインを自律運用する仕組み Hasan Toor 氏（@hasantoxr、フォロワー42万人）が「動画制作の OpenClaw が登場した」と紹介して話題になっています。 BREAKING: The「OpenClaw for video production」just dropped. It’s called AIVideo Agent and it runs your entire content pipeline 24/7 entirely on its own. No API keys. No technical setup. No configuration screens. Just tell it what you want. It ships. ブックマーク 1,949、閲覧数 93,000 超と大きな反響を呼んでいるこの投稿が紹介しているのは、Y Combinator 出身の AIVideo.com が提供する Video Composer Agent です。「API キー不要、技術セットアップ不要、設定画面なし」という訴求は、OpenClaw が「チャットで指示するだけ」でタスクを実行するのと同じ発想を動画制作に持ち込んだものです。 OpenClaw が変えた「エージェント＝非エンジニア向け」の期待値 AIVideo Agent が「OpenClaw for video production」と呼ばれる背景を理解するには、OpenClaw が何を変えたのかを押さえる必要があります。 ...