「研究コミュニティをまるごとエミュレートせよ」— Karpathy が示す AI エージェント協調の未来

Andrej Karpathy が autoresearch を公開した直後、さらに踏み込んだビジョンを示した。「次のステップは、エージェント同士が非同期かつ大規模に協調する仕組みだ」— 単一エージェントの能力向上ではなく、エージェント群の協調システム設計こそが本質だという主張だ。 「一人の博士課程ではなく、研究コミュニティを」 The goal is not to emulate a single PhD student, it’s to emulate a research community of them. (目標は一人の博士課程の学生をエミュレートすることではない。研究コミュニティをまるごとエミュレートすることだ。) 現在の autoresearch はコミットを同期的に一本のスレッドで積み上げていく設計だ。だが Karpathy が構想するのは、リポジトリを「種」として無数のエージェントがそこから枝分かれし、異なる研究方向に並列で進んでいく世界だ。SETI@home のような分散コンピューティングモデルを研究に適用するイメージだと言える。 技術的な課題 この構想が実現するには、いくつかのハードルがある: 分散タスクシャーディング — 実験をどう分割して割り当てるか 結果の重複排除 — 同じ仮説を複数エージェントが試す無駄をどう防ぐか クロスエージェントメモリ — あるエージェントの発見を他のエージェントが活用できる仕組み Git の限界 — 「一本の master ブランチ + 一時的な PR」という既存の Git モデルでは、エージェントが数千のコミットを並列に管理する構造に対応しきれない Karpathy 自身も、Discussions や PR を使ったエージェント間の知見共有を軽量にプロトタイピングしたと述べている。 「一つを賢くする」から「場の設計」へ IT navi 氏(@itnavi2022)は、この動きを端的にこう要約している: AI が一人の研究者を代替するのではなく、無数のエージェントが並列に仮説を試し、成果や失敗を持ち寄りながら、ひとつの研究コミュニティのように知を前進させる未来だ。問題は、一つのエージェントを賢くすることではなく、無数のエージェントが枝分かれしながら知見を蓄積する場をどう設計するかに移りつつある。 これは AI エージェント開発における重要なパラダイムシフトだ。これまでの議論は「いかにモデルを賢くするか」「いかにプロンプトを最適化するか」に集中していた。だが autoresearch が示す方向は、個のエージェントの能力向上よりも、エージェント群の協調システム設計に重心が移りつつあるということだ。 Karpathy の言葉を借りれば、エージェントの「知性、注意力、粘り強さがボトルネックでなくなった」とき、既存の開発抽象(Git、CI/CD、コードレビュー)にますます圧力がかかる。 ...

2026年3月9日 · 1 分

Harness Engineering ベストプラクティス 2026 — AI コーディングエージェントを安定稼働させる設計術

Claude Code や Codex といった AI コーディングエージェントを現場に投入する開発者が増えるなか、「ハーネスエンジニアリング」という新しい実践領域が注目を集めている。逆瀬川氏(@gyakuse)が公開したまとめ記事から、要点を紹介する。 そもそも「ハーネス」とは何か 「ハーネス(harness)」とは、もともと馬具の意味だ。馬の力を人間が制御して活かすための装具一式 — 手綱、鞍、轡(くつわ)などを指す。馬がどれだけ優秀でも、ハーネスなしでは暴走するだけで仕事にならない。 ソフトウェアの世界では「テストハーネス」という用語がすでにある。テスト対象のコードを「つなぎ止めて」、入力を与え、出力を検証する枠組みのことだ。テスト対象そのものではなく、テスト対象を正しく動かすための外側の仕組みを指す。 AI コーディングエージェントにおける「ハーネス」もこれと同じ発想だ。AI エージェント(= 馬)は強力だが、そのままでは暴走する。古いドキュメントを信じてしまう、リンターのルールを勝手に緩和する、前のセッションで何をしたか忘れる。エージェントを制御し、安定した成果を引き出すための外側の仕組み全体がハーネスであり、それを設計・構築する技術がハーネスエンジニアリングだ。 具体的にハーネスを構成する要素は、大きく 3 つの層に分けられる: 入力層 — エージェントに何を読ませ、何を読ませないかを制御する(AGENTS.md の設計、リポジトリの衛生管理、セッション間の状態引き継ぎ) 実行制御層 — エージェントの作業中にリアルタイムで品質を強制する(リンター・フォーマッターの自動実行、計画と実行の分離) 検証層 — エージェントの出力が正しいことを確認する(E2E テスト、プリコミットチェック) 核心的な洞察は「ハーネスがモデルより重要」という点だ。同じモデルでもハーネスを改善すれば出力品質が劇的に向上する。開発者の責任は「正しいコードを書く」から「エージェントが確実に正しいコードを生産する環境を設計する」へとシフトしている。 7 つの主要トピック 1. リポジトリ衛生 〈入力層〉 「衛生(hygiene)」は、ソフトウェア開発で「不要物や汚染を取り除き、健全な状態を保つ」という意味で使われる慣用表現だ(「コードハイジーン」「ブランチハイジーン」なども同様)。ここでは、リポジトリ内に古くなったドキュメントや不正確な情報が溜まらないよう清潔に保つことを指す。人間なら「このメモ、古そうだな」と判断できるが、エージェントは 3 ヶ月前のメモも最新のコードも同じ「事実」として読んでしまう。だから情報の鮮度管理が重要になる。 実行可能なアーティファクト(コード、テスト、設定)を優先する 説明的ドキュメントは腐敗しやすいため最小化する ADR(Architecture Decision Records)で決定履歴を保全する テストはドキュメントより腐敗に強い 最大の敵は「説明的ドキュメントの腐敗」だ。エージェントは「3 ヶ月前のメモ」と「現在の真実」を区別できないため、古い情報が存在するだけで性能が低下する。ハーネスの入力層として、エージェントが読む情報の鮮度と正確性を保つことが最初のステップになる。 2. 決定論的ツールで品質を強制する 〈実行制御層〉 「決定論的(deterministic)」とは、同じ入力に対して毎回必ず同じ結果を返すという意味だ。リンターやフォーマッターがその典型で、たとえば「未使用の変数がある」というコードを渡せば、何度実行しても必ず同じ警告を返す。気分や文脈によって判断が揺れることがない。 対照的に、LLM は非決定論的だ。同じコードを渡しても、実行するたびにチェックの粒度や指摘内容がブレる。「インデントを揃えて」と指示しても、ある時はスペース 2 つ、別の時はタブで揃えるかもしれない。 だからこそ、機械的に判定できるルール(構文エラー、未使用変数、フォーマット)は LLM に任せず、決定論的ツールに委ねるのが原則だ。PostToolUse Hook でファイル編集のたびにリンターを自動実行し、エラーをエージェントに即時フィードバックする。 言語別の推奨スタック: 言語 PostToolUse プリコミット カスタムルール TypeScript Biome + Oxlint tsc + ESLint eslint-plugin-local-rules Python Ruff check/format Ruff + mypy ast-grep Go gofumpt + golangci-lint 同左 ast-grep リンター設定の保護も重要だ。エージェントがルールを勝手に緩和・改ざんするのを防ぐ仕組みが必要になる。これはまさに「手綱」の役割 — エージェントが暴走しないよう、作業のたびに自動で引き戻す仕組みだ。 ...

2026年3月9日 · 1 分

Karpathy の autoresearch — AIが寝ている間に100回実験を回す仕組み

Andrej Karpathy が公開した autoresearch は、AI エージェントが単一 GPU 上で自律的に ML 実験を繰り返すツールです。わずか約630行の Python コードで「コード修正 → 学習 → 評価 → 改善」のループを自動化し、研究の競争軸を「コード品質」から「改善ループの速度」へと変えようとしています。 autoresearch とは autoresearch のコンセプトはシンプルです: AIエージェントに小さいが本物の LLM トレーニング環境を渡し、一晩中自律的に実験させる エージェントはトレーニングコード(train.py)を自動修正し、5分間のトレーニングを実行、検証損失(val_bpb)が改善したかを確認し、結果に基づいて次の実験に進みます。 プロジェクト構成 autoresearch はたった3つのファイルで構成されています: ファイル 役割 編集者 prepare.py データ準備・ランタイムユーティリティ 変更不可 train.py モデル・オプティマイザ・学習ループ AIエージェント program.md エージェントへの指示書 人間 従来のML研究では Python ファイルを直接編集しますが、autoresearch では Markdown ファイル(program.md)でエージェントに指示を与える という設計になっています。人間が行うのは「プログラムのプログラミング」です。 固定時間予算という設計判断 autoresearch の重要な設計判断は、全てのトレーニングを ちょうど5分間 に固定していることです: 1時間あたり約12回の実験が可能 一晩(8時間)で約100回の実験を自動実行 プラットフォームに依存せず公平な比較が可能 1 2 3 4 5 6 # セットアップ uv sync uv run prepare.py # データ準備(初回のみ、約2分) # 単一実験の実行 uv run train.py # 約5分で完了 エージェントの起動は、Claude などの AI に対して以下のように指示するだけです: ...

2026年3月9日 · 1 分

RuView × Wi-Fi電波で壁越し人体検知 — $48で心拍・姿勢を丸裸にする技術の実態

RuView × Wi-Fi電波で壁越し人体検知 — $48で心拍・姿勢を丸裸にする技術の実態 TL;DR: カメラなし・$48のESP32だけで壁の向こうの人間の心拍・呼吸・骨格17点を検知できるとするオープンソースプロジェクト「RuView」がSNSで話題に。原理はCMU発の査読済み研究に基づく実在技術だが、「28.5kスター」の裏には再現性への疑義とCSIハードウェアの壁がある。煽りと科学を分離して整理する。 話題の発端 @kosuke_agos氏のポスト(2026年3月5日、閲覧6.4万・ブックマーク456)が日本語圏で拡散。「市販Wi-Fiルーターだけで壁の向こう側の人間の心拍数や姿勢を完全に特定」「わずか48ドルで構築」という衝撃的な内容が注目を集めた。 https://x.com/kosuke_agos/status/2029392193325285521 RuView とは何か RuView(旧wifi-densepose)は、Wi-Fi信号のCSI(Channel State Information)を解析して、カメラなしで人体の姿勢推定・バイタルサイン検知を行うオープンソースプロジェクト。 GitHub: https://github.com/ruvnet/RuView スター: 28.5k / フォーク: 3.7k ライセンス: MIT 実装言語: Rust(Python比810倍の処理速度を主張) 主張されている性能 機能 スペック 骨格トラッキング 17箇所のキーポイント 呼吸検知 6-30 BPM 心拍検知 40-120 BPM 処理速度 54,000 fps(Rust実装) 壁越し検知距離 最大5m AIモデルサイズ 55KB(エッジ実行可能) ハードウェアコスト 〜$48(ESP32-S3 × 4-6台) 科学的な背景 — CMU「DensePose From WiFi」 RuView の理論的基盤は、カーネギーメロン大学(CMU)ロボティクス研究所が2022年に発表した査読済み論文「DensePose From WiFi」(arXiv: 2301.00250)。 論文の核心 Wi-Fiの**CSI(チャネル状態情報)**は、空間内の物体・人体による電波の反射・回折・散乱を数値化したもの CSI信号を画像的な2D特徴マップに変換するエンコーダ・デコーダネットワークを構築 修正版DensePose-RCNNで、2D特徴から人体表面のUV座標を推定 複数人の同時検知が可能で、カメラベースのアプローチに匹敵する性能を達成 この研究は実在し、査読を通過しており、Wi-Fi CSI による人体検知という原理自体は「嘘」ではない。 CSI の仕組み(簡略版) Wi-Fi ルーター → 電波送信(OFDM: 52サブキャリア) ↓ 人体が電波を反射・吸収・散乱 ↓ ESP32 受信 → 各サブキャリアの振幅・位相変化を記録(= CSI) ↓ AI が CSI パターンから人体の姿勢・バイタルを推定 呼吸は胸部の周期的な膨張・収縮(6-30回/分)、心拍は胸壁の微小振動(40-120回/分)として、CSIのFFT(高速フーリエ変換)解析で分離・抽出される。 ...

2026年3月6日 · 2 分

Agentic AI の仕組み — 4層アーキテクチャで理解する「考えて動く AI」の全体像

Agentic AI の仕組み — 4層アーキテクチャで理解する「考えて動く AI」の全体像 Ronald van Loon さん(@Ronald_vanLoon)が、@Python_Dv 作成の Agentic AI アーキテクチャ図を共有し、注目を集めています。 How #AgenticAI works https://x.com/Ronald_vanLoon/status/2029305639546060814 このインフォグラフィックは、Agentic AI の動作原理を Input Sources → AI Processing → Action Layer → Output の4層で整理しています。「生成 AI と何が違うのか」「なぜ自律的に動けるのか」を、この4層構造を軸に解説します。 生成 AI と Agentic AI の根本的な違い まず前提を整理します。生成 AI(Generative AI)と Agentic AI は、AI の進化の段階が異なります。 観点 生成 AI Agentic AI 基本動作 プロンプトに対してコンテンツを生成 目標に向かって自律的に行動 姿勢 受動的(聞かれたら答える) 能動的(自分で判断して動く) タスク範囲 1回のやり取りで完結 複数ステップを跨いで継続 外部連携 なし(テキスト入出力のみ) API・ツール・データベースと連携 記憶 セッション内のみ セッション間で永続化可能 自己修正 なし エラーを検知して自動リカバリー IBM は両者の関係を端的にまとめています。「生成 AI は考えて話す。Agentic AI は計画して実行する」。 ...

2026年3月5日 · 4 分

Agentic AI 学習ロードマップ — 「フルスタックインテリジェンス」を9ヶ月で習得する体系的な道筋

Agentic AI 学習ロードマップ — 「フルスタックインテリジェンス」を9ヶ月で習得する体系的な道筋 @ingliguori 氏(Giuliano Liguori)のポストが、Agentic AI を学ぶためのロードマップを共有しています。 Roadmap to learn Agentic AI: AI fundamentals → Python + frameworks → LLMs → Agents architecture → Memory + RAG → Planning & decision-making → RL & self-improvement → Deployment → Real-world automation Agentic AI = full-stack intelligence. 「Agentic AI = フルスタックインテリジェンス」というフレーズが示すように、AI エージェントの開発には基礎数学からデプロイまで、フルスタックの知識が求められます。本記事では、このロードマップを複数の学習リソースと照合しながら、各段階で何を学び、どのツールを使い、どこまでを目指すのかを体系的に解説します。 ロードマップの全体像 Liguori 氏が示した9ステップを、Scaler の9ヶ月ロードマップと roadmap.sh の AI Agents ロードマップを参考に、時系列で整理します。 月0-1 AI Fundamentals ← 数学 + ML 基礎 月1-2 Python + Frameworks ← API + ライブラリ 月2-3 LLMs ← Transformer + プロンプト 月3-4 Agents Architecture ← ReAct + ツール使用 月4-5 Memory + RAG ← ベクトル DB + 検索拡張 月5-6 Planning & Decision ← 計画 + マルチエージェント 月6-7 RL & Self-improvement ← フィードバック + 自律性 月7-8 Deployment ← MLOps + 監視 月8-9 Real-world Automation ← ポートフォリオ + 実案件 Step 1: AI Fundamentals(月0-1) 学ぶこと 分野 具体的な内容 線形代数 ベクトル、行列演算、固有値分解、SVD 微積分 勾配、偏微分、最適化 確率・統計 ベイズの定理、分布、仮説検定 ML 基礎 教師あり/なし学習、評価指標 推奨リソース Khan Academy — 数学基礎 “Mathematics for Machine Learning”(書籍) StatQuest — 統計の直感的理解 この段階のゴール 「なぜニューラルネットワークが動くのか」を数学的に説明できること。数式を書ける必要はないが、勾配降下法やベイズ推論の直感を持つことが重要です。 ...

2026年3月5日 · 4 分

awesome-claws × OpenClawエコシステム28エージェント完全マップと設計思想5分類

awesome-claws — OpenClaw エコシステム 28 エージェント完全マップ @tom_doerr 氏が X で紹介した、OpenClaw インスパイアのエージェントキュレーションリストが注目されています。 List of agents for OpenClaw machinae/awesome-claws は、OpenClaw にインスパイアされた 28 の AI エージェントプロジェクトをキュレーションしたリストです。Rust、TypeScript、Python、Go、C、Zig まで、8 言語にまたがるエコシステムが形成されています。 本記事では、GitHub 史上最速で最多スターを獲得した OpenClaw の背景と、そこから派生した 28 エージェントを設計思想別に分類して解説します。 OpenClaw とは何か GitHub 史上最速の成長 OpenClaw は、オーストリアの開発者 Peter Steinberger 氏が開発したオープンソースの自律型 AI エージェントです。 指標 数値 GitHub スター 247,000+(2026 年 3 月時点) 14 日間での獲得スター 190,000(GitHub 史上最速) フォーク数 47,700+ 対応チャネル 20+(WhatsApp、Telegram、Slack 等) AgentSkills 5,700+ 比較として、Kubernetes は約 10 年で 120,000 スター、Linux カーネルは 30 年以上で 195,000 スターです。OpenClaw は 14 日で 190,000 スターを達成し、React を抜いて GitHub 最多スターのソフトウェアプロジェクトになりました。 ...

2026年3月5日 · 4 分

OpenClaw × Scrapling — AIエージェントが「検出不能なスクレイピング」を手にした日

OpenClaw × Scrapling — AIエージェントが「検出不能なスクレイピング」を手にした日 RoundtableSpace(@roundtablespace)が、OpenClaw の新しいスクレイピング能力を紹介するポストを投稿し、大きな反響を集めています。 OpenClaw can now scrape any website without getting blocked - zero bot detection, bypasses Cloudflare natively, 774x faster than BeautifulSoup. No selector maintenance. No workarounds. Just data. THIS IS AN UNFAIR ADVANTAGE AND IT’S FULLY OPEN SOURCE. https://x.com/RoundtableSpace/status/2029191380212257159 5,059 いいね・424 RT・8,120 ブックマークを集めたこのポストが紹介しているのは、OpenClaw と Scrapling というオープンソース Python ライブラリの組み合わせです。AIエージェントが Cloudflare の防御を突破し、検出されずにあらゆるウェブサイトからデータを取得できるという主張は、技術コミュニティで論争を引き起こしています。 Scrapling とは何か Scrapling は、GitHub で 22,400 スターを獲得しているオープンソースの Python スクレイピングフレームワークです。開発者は Karim Shoair(D4Vinci)で、「適応型ウェブスクレイピング」を謳っています。 3つの Fetcher Scrapling の中核は、用途別に設計された3つの Fetcher です。 ...

2026年3月5日 · 3 分

OpenFang × Rust製シングルバイナリ「エージェントOS」のHandsアーキテクチャと自律型AI設計

OpenFang — Rust 製シングルバイナリの「エージェント OS」が再定義する自律型 AI の設計 @mikefutia 氏が X で紹介した OpenFang v0.3.7 のリリースが注目を集めています。 OpenFang v0.3.7 is out! here’s everything since v0.3.3 OpenFang は RightNow AI の創設者 Jaber 氏が開発する、Rust で一から構築されたオープンソースのエージェントオペレーティングシステムです。チャットボットフレームワークではなく、自律的にタスクを実行する「エージェント OS」を標榜しています。2026 年 2 月 24 日の公開から 4 日で GitHub スター 4,037 を獲得し、パーソナル AI エージェント領域で最速級の立ち上がりを見せました。 本記事では、OpenFang のアーキテクチャ、独自の「Hands」機構、Python 製フレームワークとの構造的な違いを技術的に解説します。 なぜ「エージェント OS」なのか チャットボットフレームワークとの違い LangChain や CrewAI のような既存のエージェントフレームワークは、基本的にユーザーのプロンプトを起点に動作します。ユーザーが指示を出し、エージェントが実行し、結果を返す。この対話ループが基本構造です。 OpenFang が「OS」と名乗る理由は、プロンプトなしで自律的に動作する設計にあります。 既存フレームワーク: ユーザー → プロンプト → エージェント → 結果 → ユーザー (対話ループ) OpenFang: スケジュール → エージェント → タスク実行 → 知識グラフ更新 ↓ ダッシュボードに報告 (自律ループ、ユーザーの介入は承認ゲートのみ) 24 時間 365 日、バックグラウンドでエージェントが動き続ける。リード獲得、競合監視、SNS 投稿、コンテンツ生成を自動で行い、ユーザーはダッシュボードで結果を確認する。これが OpenFang の設計思想です。 ...

2026年3月5日 · 5 分

AnimaWorks 脳科学5層記憶 × マルチエージェント「文脈崩壊」問題への解答

AnimaWorks 脳科学5層記憶 × マルチエージェント「文脈崩壊」問題への解答 まさお@AI駆動開発さんが、マルチエージェントの最大の課題である「長期タスクで文脈が壊れる」問題に対して、脳科学ベースの記憶システムで挑むOSS「AnimaWorks」を紹介しています。 マルチエージェントの最大の課題「長期タスクで文脈が壊れる」に、脳科学ベースの記憶システムで挑んでいるOSSがある。それが『AnimaWorks』。エージェントを「ステートレスな関数」ではなく「組織の中の人」として設計するフレームワーク。 https://x.com/AI_masaou/status/2029134762447667373 21 いいね・2 RT を集めたこのポストが注目するのは、従来のマルチエージェントが抱えるコンテキストウィンドウの限界を、「記憶の蓄積・整理・忘却」というサイクルで乗り越えようとする設計思想です。 マルチエージェントの「文脈崩壊」問題 LLM の「記憶」の仕組み まず前提として、LLM(ChatGPT や Claude など)には人間のような記憶がありません。LLM が「覚えている」ように見えるのは、会話の全履歴を毎回テキストとして入力に含めているからです。この入力テキスト全体をコンテキストウィンドウと呼びます。 ┌─────────────────────────────────────┐ │ コンテキストウィンドウ(例: 200K トークン) │ │ │ │ システム指示 │ │ ユーザー: こんにちは │ │ AI: こんにちは! │ │ ユーザー: Pythonで関数を書いて │ │ AI: def hello(): ... │ │ ...(数百ターンの会話履歴) │ ← 会話が長くなるほど膨らむ └─────────────────────────────────────┘ ウィンドウの物理的限界 コンテキストウィンドウには上限があります(Claude で約 200K トークン、日本語で約 10〜15 万文字)。長期タスクでは会話履歴がこの上限に達し、古い情報から順に切り捨てられます。 タスク開始時: 「このプロジェクトでは認証にJWTを使う方針です」 ← 重要な初期方針 ... 200ターン後 ... 「ログイン機能を実装して」 → エージェントは JWT の方針を忘れており、 セッション認証で実装してしまう 注意力の希釈(Lost in the Middle) ウィンドウ内に収まっていても、情報量が多すぎると LLM の「注意力」が分散します。研究では、コンテキストの先頭と末尾の情報は活用されやすいが、中間部分は見落とされやすいことが分かっています。 ...

2026年3月4日 · 7 分