Agent

Karpathy の autoresearch — AIが寝ている間に100回実験を回す仕組み

Andrej Karpathy が公開した autoresearch は、AI エージェントが単一 GPU 上で自律的に ML 実験を繰り返すツールです。わずか約630行の Python コードで「コード修正 → 学習 → 評価 → 改善」のループを自動化し、研究の競争軸を「コード品質」から「改善ループの速度」へと変えようとしています。 autoresearch とは autoresearch のコンセプトはシンプルです: AIエージェントに小さいが本物の LLM トレーニング環境を渡し、一晩中自律的に実験させるエージェントはトレーニングコード（train.py）を自動修正し、5分間のトレーニングを実行、検証損失（val_bpb）が改善したかを確認し、結果に基づいて次の実験に進みます。プロジェクト構成 autoresearch はたった3つのファイルで構成されています: ファイル役割編集者 prepare.py データ準備・ランタイムユーティリティ変更不可 train.py モデル・オプティマイザ・学習ループ AIエージェント program.md エージェントへの指示書人間従来のML研究では Python ファイルを直接編集しますが、autoresearch では Markdown ファイル（program.md）でエージェントに指示を与えるという設計になっています。人間が行うのは「プログラムのプログラミング」です。固定時間予算という設計判断 autoresearch の重要な設計判断は、全てのトレーニングをちょうど5分間に固定していることです: 1時間あたり約12回の実験が可能一晩（8時間）で約100回の実験を自動実行プラットフォームに依存せず公平な比較が可能 1 2 3 4 5 6 # セットアップ uv sync uv run prepare.py # データ準備（初回のみ、約2分） # 単一実験の実行 uv run train.py # 約5分で完了エージェントの起動は、Claude などの AI に対して以下のように指示するだけです: ...

OpenAI Symphony — AI エージェントを自律的にオーケストレーションするオープンソースフレームワーク

OpenAI が Symphony というオープンソースの自動化基盤をリリースしました。Issue トラッカーから課題を読み取り、課題ごとに隔離ワークスペースを作成し、AI エージェントに実装を走らせるオーケストレーションフレームワークです。 Symphony とは Symphony は、AI コーディングエージェントを手動のプロンプト操作から構造化された自律実行へと移行させるためのフレームワークです。Elixir / Erlang BEAM ランタイム上に構築されており、長時間実行される独立した「実装ラン（implementation run）」を高い並行性と耐障害性で管理します。従来の「AI にコードを書かせて PR を出す」という手動プロンプト型のワークフローを、カンバンボードのタスクカードを移動するだけで管理できるようにします。動作の仕組み Symphony の基本的な流れは以下の通りです: 課題の読み取り — Issue トラッカー（現在は Linear をサポート）からタスクを継続的に監視隔離ワークスペースの作成 — 各課題に対して独立したワークスペースを生成エージェントの実行 — ワークスペース内でコーディングエージェントセッションを実行成果物の提出 — CI ステータス、PR レビューフィードバック、複雑度分析、操作動画などの「作業証明」を提供承認とマージ — タスクが承認されると、エージェントが安全に PR をマージ技術的な特徴 WORKFLOW.md によるエージェント制御エージェントのプロンプトやランタイム設定は、リポジトリ内の WORKFLOW.md に直接保存されます。これにより、AI の動作指示がコードとしてバージョン管理され、変更対象のブランチと同期されます。 Elixir / BEAM ランタイムの採用 Elixir と Erlang/BEAM ランタイムを採用することで、以下のメリットがあります: 高い並行性 — 複数のエージェントセッションを同時に管理耐障害性 — 個別の実装ランが失敗してもシステム全体に影響しない長時間実行への対応 — エージェントの長時間稼働を安定的にサポート Poll-Dispatch-Resolve-Land ワークフロー Symphony の中核となるワークフローパターンです: ...

OpenClaw で月400ドルの AI チームを構築 — 18歳がコーディング経験ゼロで実現した方法

18歳、コーディング経験ゼロ、高校を卒業したばかりの起業家が OpenClaw を使って15人の AI エージェントチームを構築し、月額400ドルで24時間稼働させている事例が話題になっています。GitHubやIDEの知識がなくても、AI チームを組織できる時代が来ています。 OpenClaw とは OpenClaw は、Peter Steinberger が開発したオープンソースの自律型 AI エージェントです。2026年3月時点で GitHub スター数は約247,000、フォーク数は47,700を超え、爆発的な成長を遂げています。完全にオープンソースでサブスクリプションや API 費用が不要なため、実際にかかるコストはハードウェアと電気代のみ。専用サーバー（OVH で月45ドル、Hetzner で月40ドル程度）を使えば、低コストで本格的な AI チームを運用できます。 AI チームの構成 YouTube 動画「I Built a Full AI Team Inside OpenClaw for $400/Month」（4.2万回再生）では、以下のような AI エージェントチームの構築が紹介されています: エージェント名役割 ATLAS 戦略・計画策定 SCRIBE ドキュメント・コンテンツ作成 PIXEL デザイン・ビジュアル NOVA リサーチ・分析 SENTINEL 監視・品質管理 CLOSER セールス・クロージング CLAND コーディング・開発 CLIP 動画・メディア編集各エージェントは agents/ フォルダ内にサブフォルダとして定義され、それぞれの AGENTS.md に役割・ツール・振る舞いが記述されます。セットアップの仕組み OpenClaw のマルチエージェント構成は以下のような構造です: workspace/ ├── agents/ │ ├── atlas/ │ │ └── AGENTS.md # 戦略担当の定義 │ ├── scribe/ │ │ └── AGENTS.md # ライティング担当の定義 │ ├── cland/ │ │ └── AGENTS.md # 開発担当の定義 │ └── ... └── program.md # チーム全体への指示エージェントは MCP スキルを通じて各種ツールと連携し、Reddit や Twitter のシグナル収集、トレンド分析、コンテンツ生成などを自律的に実行します。 ...

OpenClaw とは何か：話題のオープンソース AI エージェントを徹底解説

2025年末に「Clawdbot」として登場し、2026年に入ってから GitHub スター数20万超を記録した OpenClaw が大きな話題になっています。この記事では、OpenClaw の概要、主要機能、セキュリティ上の注意点、そしてセットアップ方法までを解説します。 OpenClaw とは OpenClaw は、Peter Steinberger 氏が開発したオープンソースの AI エージェントフレームワークです。従来のチャットボットが「テキストを生成する」だけだったのに対し、OpenClaw は実際にタスクを実行する点が最大の特徴です。公式サイトのキャッチフレーズは “The AI That Actually Does Things” 。ファイル操作、シェルコマンドの実行、Web ブラウジング、フォーム入力など、PC 上のさまざまな操作を AI に任せることができます。主要機能チャットプラットフォーム統合 WhatsApp、Telegram、Discord、Slack、Signal、iMessage など、普段使っているメッセージアプリから自然言語で指示を出せます。専用アプリや Web サイトを開く必要はありません。実行可能なタスクメール管理: 未読メールの自動分析・優先順位付け、定型返信の作成スケジュール調整: カレンダー確認、飲食店予約の自動実施開発支援: GitHub コード履歴の確認、プルリクエストレビューブラウザ制御: Web サイト閲覧、フォーム入力、データ抽出の自動化ローカルファースト設計個人デバイスやローカルサーバーで動作し、Raspberry Pi のような低価格デバイスでも実行可能です。クラウド利用時も暗号化環境を採用しています。永続的メモリユーザーの好みやコンテキストを記憶し、使い込むほど賢くなる仕組みが組み込まれています。セットアップ方法 Node.js 22 以上が必要です。 1 npm install -g openclaw@latest インストール後、オンボーディングウィザードで API 設定を完了します。LLM バックエンドは Claude、GPT、Ollama 経由のローカルモデルに対応しており、自分の API キーを使う方式（BYOK）です。 ...

Paperclip — AIエージェントで会社を自律運営するオープンソースOS

AIエージェントに役職・組織図・予算・目標を与え、24時間自律的に会社を運営させる——そんなコンセプトのオープンソースプロジェクト「Paperclip」が公開され、注目を集めている。 Paperclip とは Paperclip は、複数の AI エージェントを「社員」として組織化し、会社として機能させるためのオーケストレーションプラットフォームだ。 “If OpenClaw is an employee, Paperclip is the company.” 個々の AI エージェントを個別に管理するのではなく、組織図・予算・ガバナンス・目標整合・タスク調整といった会社レベルのインフラを提供する。 GitHub: https://github.com/paperclipai/paperclip 公式サイト: https://paperclip.ing/ ライセンス: MIT 主な機能エージェントの組織化組織図（Org Chart）: 階層構造、役職、レポートラインを定義目標整合（Goal Alignment）: 会社のミッションからプロジェクト目標、個別タスクまで文脈が伝播マルチカンパニー対応: 1つのデプロイで複数の会社を完全分離して管理対応エージェント Claude、OpenClaw、Codex、Cursor、Bash スクリプト、HTTP Webhook など、ハートビートシグナルを受信できる任意のランタイムと連携できる。コスト管理エージェントごとに月次予算を設定し、使用量80%で警告、100%で自動停止する。暴走的なトークン消費を防ぐ仕組みが組み込まれている。ガバナンスと監査人間による承認ゲート（採用・戦略変更時）設定変更のバージョニングとロールバック全ての会話・意思決定・ツール呼び出しの追跡ログいつでもエージェントの一時停止・再割り当て・終了が可能セットアップ 1 2 3 4 5 6 7 8 # クイックスタート npx paperclipai onboard --yes # 手動インストール git clone https://github.com/paperclipai/paperclip.git cd paperclip pnpm install pnpm dev API は http://localhost:3100 で起動し、組み込みの PostgreSQL データベースを使用する。要件は Node.js 20+ と pnpm 9.15+。 ...

深圳が世界初の OpenClaw・一人企業支援策を発表 — AI エージェント時代のソロ起業を後押し

深圳市龍崗区が「OpenClaw および OPC（One-Person Company）発展支援に関する若干の措置」を発表した。AI エージェントフレームワーク OpenClaw と「一人企業」モデルを対象にした政府支援策としては、中国初、おそらく世界初の試みだ。荒井健一氏（@aarai666）のツイートで紹介されたこの政策の要点を整理する。 OpenClaw とは何か OpenClaw はオーストリアの Peter Steinberger 氏が開発したオープンソースの AI アシスタントだ。フライトの予約からメール整理まで幅広いタスクを自律的にこなし、個人が数人分のチームに匹敵する生産性を発揮できる。この仕組みを活用して一人で会社を運営する「OPC（One-Person Company）」というコンセプトが、中国を中心に急速に広がっている。中国では無料インストールイベントに数千人が参加するなど爆発的な人気を見せており、李強首相が全国人民代表大会で「スマートエージェント」（OpenClaw を含む概念）に言及するほどの注目度だ。深圳・龍崗区の支援策龍崗区の政策は、概念の認知からわずか約 3 週間で正式な支援策にまとめ上げるスピード感を見せた。支援は大きく 3 つの柱で構成される。 1. 導入・開発支援「ロブスターサービスゾーン」を設置し無料で OpenClaw の導入サービスを提供するプラットフォームに、最大 200 万元（約 4,000 万円）の補助金コード貢献やスキルパッケージ開発を行う開発者への追加資金支援関連技術パッケージの開発・配布企業に最大 200 万元の助成金 2. 計算・データリソースデータサービス、AI NAS ハードウェア、大規模モデル API 利用料の 30〜50% を補助 OPC コミュニティに新規入居する企業に 3 ヶ月間の無料計算リソースを提供 3. 総合的な起業支援 2 ヶ月間の無料住居提供 18 ヶ月間の割引オフィススペース人材定着助成金として最大 10 万元（約 200 万円）エクイティ投資として最大 1,000 万元（約 2 億円）政策の戦略的目標は「初期の起業コストをゼロ水準まで引き下げ、深圳を AI エージェントスタートアップのハブにする」ことだ。 ...

Claude Codeのハルシネーション対策 — Anti-Hallucination Protocolという考え方

Claude Code などの LLM エージェントを業務で使う際、最大のリスクは**ハルシネーション（幻覚）**です。プロンプトの改善ばかりが注目されがちですが、本当に必要なのは「仕組みで縛る」アプローチです。きっかけとなった事故ある開発者が実際に遭遇した事故が、この議論のきっかけです: which コマンドの結果だけで「未インストール」と診断されたが、コードは PATH 外のディレクトリを直接参照していた。ログを1行も読まずに断言。 LLM エージェントは自信に満ちた口調で誤った結論を出すことがあり、人間がそれを鵜呑みにしてしまうリスクがあります。 Anti-Hallucination Protocol の4つの柱提唱されている Anti-Hallucination Protocol は、以下の4つのルールで構成されます: 1. 事実主張にはツール実行による検証を義務化 LLM が「〜がインストールされていない」「〜が原因です」と主張する場合、必ず対応するコマンドやツールを実行して裏付けを取ることを求めます。推測だけで結論を出すことを許容しません。 2. 禁止パターンの明示以下の4つのパターンを明示的に禁止します: パターン説明推測診断十分な証拠なしに原因を断定する確認なし否定実際に確認せず「存在しない」「動かない」と主張する記憶による主張過去の学習データだけに基づく事実主張自信に満ちた誤り高い確信度で不正確な情報を提供する 3. 違反時のインシデント記録と伝播ハルシネーションが検出された場合、インシデントとして記録し、全プロジェクト横断で伝播させます。これにより同じ失敗パターンを繰り返さない仕組みを構築します。 4. プロジェクト設定への組み込み CLAUDE.md や類似の設定ファイルにルールを記述し、プロジェクト単位で一貫したガードレールを維持します。 2026年のハルシネーション対策の現状 2026年3月時点で、各 LLM のハルシネーション率は改善が進んでいます。LLM Hallucination Index 2026 によると、Claude Sonnet 4.6 は BS 検出成功率 91.0%、誤検出率 3.0% とトップクラスの精度を示しています。しかし、モデル性能の向上だけでは不十分です。特に以下の場面ではハルシネーションが発生しやすいことが報告されています: コンテキスト圧縮後: 長い会話でコンテキストが圧縮されると、計画と実装の乖離が起きやすい Plan Mode での実装フェーズ: 計画作成後の実装で、計画にない機能を追加してしまう実践的な対策 CLAUDE.md への記述例 1 2 3 4 5 6 ## Anti-Hallucination Rules - ファイルの存在確認は必ず `ls` や `cat` で実行すること - パッケージのインストール状況は `which` だけでなく、実際のインポートやバージョン確認で検証すること - エラーの原因を主張する前に、必ずログファイルを読むこと - 「〜のはずです」「おそらく〜」という推測を事実として扱わないこと CLEO のようなツールの活用 CLEO は Claude Code 向けのタスク管理ツールで、4層の Anti-Hallucination 保護と SQLite による不変の監査証跡を提供します。 ...

OpenClaw × Telegram Forum Topics — AIとの対話を構造化して生産性を上げる方法

OpenClaw を Telegram で使っている人に向けて、Forum Topics を活用した構造化テクニックが海外で話題になっています。ブックマーク 2,000 件を突破したこの手法を紹介します。 Forum Topics でできること Telegram の Forum Topics 機能を OpenClaw と組み合わせると、以下のことが実現できます: 会話をカテゴリ分け — 仕事、開発、健康、趣味など、トピックごとに独立した LLM セッションを持てる文脈が混ざらない — 各トピックが独立したセッションになるため、異なるコンテキストが干渉しない cron ジョブ・定期通知の自動ルーティング — 関連するトピックに自動で振り分けメール転送による自動処理 — ボットにメールを転送するだけで、適切なトピックで自動的に処理設定方法設定はシンプルです: BotFather で「Threaded Mode」を ON にする OpenClaw に Forum Topics を使うよう指示するこれだけで、トピックベースの構造化された AI アシスタント環境が整います。実践例: AI が部門別の秘書チームになるこの手法を紹介した Typefully の共同創業者は、実際に自分のプロダクト運用でこの構造を活用しています: トピック用途 General 一般的なやり取り Dev 開発タスク管理 Life 日常のタスク Health 健康管理 Racing レース準備 Finances 財務管理まさに AI が部門別の秘書チームとして機能している状態です。 ...

OpenRouter で AI モデルを一元管理する — コスト削減と効率化の実践

AI モデルの利用が増えるにつれ、複数のプロバイダの API キーを管理する煩雑さやコストの把握が難しくなっていく。OpenRouter を使えば、1つの API キーで複数の AI モデルにアクセスでき、コスト管理も一元化できる。 OpenRouter とは OpenRouter は、複数の AI モデルプロバイダ（OpenAI、Anthropic、Google、Meta など）のモデルに単一の API エンドポイントからアクセスできるルーティングサービスだ。OpenAI 互換の API 形式を採用しているため、既存のコードからの移行も容易になっている。料金体系 OpenRouter は無料から始められる。クレジットカードの登録も不要だ。無料モデル: DeepSeek V3/R1、Google、Meta、Mistral など約27種類のモデルが無料で利用可能（1日50リクエスト、1分20リクエストの制限あり）有料モデル: Claude や GPT-4 などのプレミアムモデルはプロバイダの正規料金で従量課金。最低金額やロックインなし BYOK（自分の API キー持ち込み）: 月100万リクエストまで無料。以降は通常料金の5%の手数料 OpenRouter を使う3つのメリット 1. コスト効率の向上各プロバイダと個別に契約する代わりに、OpenRouter 経由で利用することで支出を一元管理できる。用途に応じて安価なモデルと高性能なモデルを使い分けることで、全体のコストを最適化できる。 2. API キーの一元管理複数のプロバイダの API キーを管理する必要がなくなる。1つの OpenRouter API キーだけで、さまざまなモデルにアクセスできる。 1 2 # OpenRouter API キーを設定するだけで複数モデルにアクセス可能 export OPENROUTER_API_KEY="sk-or-..." 3. 最新モデルへの素早い切り替え新しいモデルがリリースされた際、OpenRouter 上で利用可能になればすぐに試すことができる。プロバイダごとにアカウント登録や API キー発行をする必要がない。 ...

# OpenHands × Ollama ローカルLLM実践記 — Mac Studio M3 Ultra で動かすまでの全記録

OpenHands × Ollama ローカルLLM実践記 — Mac Studio M3 Ultra で動かすまでの全記録 TL;DR: OpenHands（旧OpenDevin）をMac Studio M3 Ultra（96GB）+ Ollama + Qwen3-Coder 30B で動かそうとした。Docker-in-Docker のビルド問題、Playwright依存、ランタイムイメージ手動構築を経てUI起動まで到達したが、30Bモデルのtool calling精度不足で実用には至らなかった。 1. OpenHands とは OpenHands（旧 OpenDevin）は、オープンソースのAIコーディングエージェントプラットフォーム。75以上のLLMプロバイダーに対応し、SWE-bench で Qwen3-Coder 使用時に 69.6% のスコアを記録している。公式リポジトリ: https://github.com/All-Hands-AI/OpenHands 特徴: Web UI でブラウザから操作 Docker サンドボックスで安全にコード実行 CodeActAgent による自律的なタスク遂行 Playwright 統合によるブラウザ操作 2. 動機 — なぜ OpenHands を試したか前回の実験で Qwen Code（CLI エージェント）を Ollama + Qwen3-Coder 30B で動かしたが、複雑な multi-step タスク（GitHub PR レビューなど）で tool calling が破綻する問題に直面した。 OpenHands は SWE-bench で高スコアを出しており、エージェントスキャフォールディングの力で同じ 30B モデルでも改善されるのでは？という仮説を検証するために試した。 ...