autoresearch:Karpathyが公開した「寝ている間にAIが100実験を自律実行する」630行のスクリプト

OpenAI初期メンバーであるAndrej Karpathyが、autoresearchというオープンソースツールを公開しました。わずか630行のPythonスクリプトで、寝ている間にAIエージェントが約100の機械学習実験を自律的に実行してくれるというものです。 Karpathy「12月からコードを1行も書いていない」 Karpathyは「12月から自分でコードを1行も書いていない」と告白しています。代わりに公開したのがこのautoresearchで、プログラマーの仕事が「コードを書く」から「設計する」へとシフトしていることを象徴しています。 autoresearchの仕組み autoresearchはシンプルな仕組みで動作します: AIエージェントにトレーニングスクリプトと固定の計算バジェット(通常5分間のGPU時間)を渡す エージェントが自分のソースコードを読み、改善の仮説を立てる コードを修正し、実験を実行する 結果が改善されたかを評価し、改善なら保持・悪化なら破棄する このサイクルを繰り返す トレーニングは常に5分間で実行されるため、1時間あたり約12実験、一晩で約100実験が自動的に回ります。 実績と反響 Shopify CEO Tobias Lütke: 一晩で37実験を実行し、性能19%向上を達成 Karpathy自身: 700以上の実験を2日間で実行(Fortune誌報道) GitHub: 公開1週間で数万スターを獲得(現在54,000以上) 技術的特徴 シングルGPU対応: 高価なクラスタは不要 630行のスクリプト: コードベースが小さく、理解・カスタマイズが容易 MITライセンス: 誰でも自由に利用可能 Python製: train.py を中心としたシンプルな構成 リポジトリ GitHub: karpathy/autoresearch 「書く」から「設計する」への転換 autoresearchが示唆しているのは、世界最高峰のプログラマーの仕事が「AIにコードを書かせる」段階をすでに超え、AIエージェントに実験を設計・実行させるフェーズに入っているということです。Karpathyは将来的に、エージェント群が協調して小さなモデルをチューニングし、有望なアイデアを段階的にスケールアップさせる「研究コミュニティのエミュレーション」を構想しています。

2026年3月23日 · 1 分

ClawRouter — OpenClaw の API コストを最大92%削減するオープンソース LLM ルーター

OpenClaw を使っていて API コストが気になっていませんか? ClawRouter は、リクエストごとに最安のモデルを自動選択してくれるオープンソースの LLM ルーターです。最大約92%のコスト削減が期待でき、しかも完全無料で利用できます。 ClawRouter とは ClawRouter は、OpenClaw 向けに設計されたエージェントネイティブな LLM ルーターです。MIT ライセンスで公開されており、誰でも無料で利用できます。 主な特徴: 55以上のモデルに対応 — DeepSeek V3.2、Nemotron Ultra 253B、Mistral Large 3 675B、Llama 4 Maverick など 1ms 未満のルーティング — すべてローカルで処理されるため、レイテンシの追加はほぼゼロ 15次元のリクエスト分析 — 各リクエストを多次元で要素分解し、最適なモデルをスコアリング 11モデルが完全無料 — 簡単なクエリは無料モデルに自動ルーティング どれくらいコストが下がるのか ClawRouter の公式ベンチマークによると: 指標 値 ClawRouter 平均コスト $2.05 / 100万トークン Claude Opus 直接利用 $25 / 100万トークン 削減率 約92% たとえば「2+2は?」のような簡単な質問は、DeepSeek などの無料モデルに自動ルーティングされます。一方、複雑な推論が必要なタスクにはプレミアムモデルが選択されるため、品質を犠牲にしません。 仕組み ClawRouter は各リクエストに対して以下のプロセスを実行します: リクエスト分析 — 入力テキストを15次元で要素分解(タスクの複雑さ、必要な推論能力、言語、コンテキスト長など) スコアリング — 各モデルの能力とコストを総合的に評価 ルーティング — 最もコスト効率の良いモデルを自動選択 この全プロセスが 1ms 未満で完了します。 ...

2026年3月21日 · 1 分

Claude Code vs Codex:AI コーディングエージェント徹底比較 2026

AI コーディングエージェントの二大巨頭、Anthropic の Claude Code と OpenAI の Codex。どちらを使うべきか迷っている開発者は多いでしょう。Hesam 氏(@Hesamation)が数ヶ月間の実用比較を経て「Claude Code に戻った」という記事が話題になっています。本記事では、両ツールのベンチマーク・アーキテクチャ・実用上の使い分けを整理します。 ベンチマーク比較 SWE-bench Pro(ソフトウェアエンジニアリングタスク) モデル スコア Claude Opus 4.6 59.0% GPT-5.3-Codex 56.8% 複雑なソフトウェアエンジニアリングタスクでは Claude Opus 4.6 がリードしています。 Terminal-Bench 2.0(ターミナル操作タスク) モデル スコア GPT-5.3-Codex 77.3% Claude Opus 4.6 65.4% 一方、CLI 操作や CI/CD 関連のタスクでは Codex が強さを発揮します。 アーキテクチャの違い コンテキストウィンドウ Claude Code: 100万トークン(ベータ) Codex: 40万トークン Claude Code は 2.5 倍のコンテキストウィンドウを持ち、大規模なコードベースの横断的な分析に強みがあります。 実行速度 Codex: Cerebras WSE-3 で 1,000+ トークン/秒 Claude Code: 約 200 トークン/秒(標準推論) 速度面では Codex が圧倒的です。ただし、Claude Code はトークン消費量が 3.2〜4.2 倍多い傾向にあり、同じタスクでもより多くの推論を行っている可能性があります。 ...

2026年3月11日 · 1 分

OpenAI Codex の SubAgent(Swarm)が変える AI コーディングの未来

OpenAI Codex に搭載された SubAgent(サブエージェント)機能が話題になっています。複数の AI エージェントを並列で動かし、複雑なコーディングタスクを群(Swarm)として処理できるこの機能について、技術的な詳細をまとめます。 SubAgent とは何か Codex の SubAgent は、メインのエージェントが複数の専門化されたエージェントを並列でスポーン(生成)し、それぞれの結果を統合するワークフロー機能です。コードベース探索やマルチステップの機能実装など、並列処理が有効なタスクに特に威力を発揮します。 特筆すべきは、サブエージェントからさらにサブエージェントを生成できる(ネスト可能な)点です。これにより、複雑なタスクを再帰的に分解して処理できます。 ビルトインエージェント Codex には3つのビルトインエージェントが用意されています。 エージェント 役割 default 汎用フォールバック worker 実装・修正中心のタスク explorer コードベース探索中心のタスク 主要な設定パラメータ 1 2 3 4 5 6 # ~/.codex/agents/ または .codex/agents/ に TOML 形式で配置 [agents] max_threads = 6 # 並行スレッド上限(デフォルト: 6) max_depth = 1 # ネスト深度上限(デフォルト: 1) job_max_runtime_seconds = 1800 # タイムアウト(デフォルト: 30分) max_depth を増やすことで、サブエージェントからさらにサブエージェントを生成する多段ネストが可能になります。 ...

2026年3月11日 · 1 分

VS Code AI コーディングアシスタントのインストール数推移:GitHub Copilot の急落と競合の台頭

VS Code マーケットプレイスにおける AI コーディングアシスタントの日次インストール数を示すグラフが話題になっている。GitHub Copilot のインストール数が急激に落ち込む「崖」が鮮明に表れており、SaaS 事業者やプロダクトマネージャーにとって示唆に富む内容だ。 グラフが示すもの 「Daily Install Counts of AI Coding Assistants in Visual Studio Code」と題されたグラフには、以下の 3 つの AI コーディングアシスタントの日次インストール数(30日移動平均)が描かれている。 GitHub Copilot(オレンジ):2021年末から着実に成長し、2025年後半には日次 150,000 インストール近くまで到達。しかし 2026年に入って急落し、現在は 60,000 前後まで落ち込んでいる Claude Code(シアン):2025年後半に登場し、直近で急速に伸長。日次 60,000 近くまで上昇 OpenAI Codex(イエロー):同じく直近で伸びを見せているが、Claude Code よりやや控えめ 注目すべきは、GitHub Copilot のインストール数がピークから半分以下に急落している点だ。この「崖」は、競合の台頭と GitHub Copilot 自体の変化の両方が要因と考えられる。 急落の背景 GitHub Copilot の課金モデル変更 GitHub Copilot は 2024年12月に無料ティアを導入し、月 2,000 回のコード補完と 50 回のチャットリクエストという制限付きで提供を開始した。同時に、有料プランの価格体系も複雑化している。 Free:月 2,000 補完 / 50 チャット Pro:$10/月 Pro+:$39/月 Business:$19/ユーザー/月 Enterprise:$39/ユーザー/月 無料ティアの導入は新規ユーザー獲得を狙った施策だが、既存の有料ユーザーが無料枠で十分と判断して解約するケースもあり得る。また、Microsoft は従来の IntelliCode を廃止し、AI 支援を Copilot に一本化する戦略を取っている。 ...

2026年3月11日 · 1 分

中国政府が OpenClaw に緊急セキュリティ警告:AI エージェントの安全な運用とは

オープンソースの AI エージェントフレームワーク「OpenClaw」の利用が中国国内で急拡大する中、中国の国家コンピュータネットワーク緊急対応技術チーム(CNCERT)が緊急のセキュリティ警告を発しました。政府機関や国有銀行での使用禁止にまで発展したこの問題について、技術的な背景と対策をまとめます。 何が起きたのか 2026年3月、中国の CNCERT は OpenClaw について「極めて弱いデフォルトセキュリティ設定」を持つと警告を発しました。OpenClaw はローカルファイルシステムや環境変数へのアクセス、拡張機能のインストールなど高いシステム権限を付与されますが、デフォルトのセキュリティ設定が不十分であり、攻撃者がシステム全体の制御を容易に奪取できる状態であると指摘されています。 この警告を受けて、中国当局は政府機関と国有企業(主要銀行を含む)に対し、業務用コンピュータへの OpenClaw のインストールを禁止する通知を出しました。既にインストール済みの職員には、上司への報告・セキュリティチェック・必要に応じた削除が指示されています。 CNCERT が指摘した主なリスク 1. アーキテクチャ設計上の問題 OpenClaw はローカルファイルシステム、環境変数、シェルへの広範なアクセス権限を持ちます。これ自体は AI エージェントの機能として必要ですが、適切な制限なしに運用すると重大なリスクとなります。 2. デフォルト設定の脆弱性 管理 UI のデフォルトポートがインターネットに公開可能な状態 環境変数に認証情報を平文で保存する設定がデフォルト スキルの自動更新が有効な状態がデフォルト 3. プラグインエコシステムの危険性 不正なプラグイン(ポイズンドプラグイン)を通じて、ユーザーのシステムに悪意あるコードが侵入するリスクがあります。プラグインのアクセス権限が十分に制限されていないことが問題視されています。 4. Web ベースの攻撃 悪意ある指示を Web ページに埋め込むことで、OpenClaw に不正な操作を実行させる攻撃(プロンプトインジェクション)が可能です。 5. 重要データの誤削除 AI エージェントの判断ミスにより、ユーザーが意図しない重要データの削除が発生するリスクも指摘されています。 CNCERT の推奨対策 CNCERT は以下の対策を推奨しています。 コンテナで隔離実行する — OpenClaw をホストシステムから隔離された環境で動作させる 管理ポートをインターネットに公開しない — 管理 UI へのアクセスをローカルネットワークに限定する 認証情報を平文で環境変数に保存しない — シークレット管理ツールを使用する スキルの自動更新を無効にする — 更新は手動で検証してから適用する 厳密な認証とアクセス制御を実装する — 不要な権限を排除する セキュリティアップデートへの追従を徹底する — 既知の脆弱性に速やかに対応する AI エージェント全般への教訓 この問題は OpenClaw に限った話ではありません。AI エージェントは本質的に高いシステム権限を必要とするため、以下の原則はどのエージェントツールにも当てはまります。 ...

2026年3月11日 · 1 分

OpenAI Symphony — AI エージェントを自律的にオーケストレーションするオープンソースフレームワーク

OpenAI が Symphony というオープンソースの自動化基盤をリリースしました。Issue トラッカーから課題を読み取り、課題ごとに隔離ワークスペースを作成し、AI エージェントに実装を走らせるオーケストレーションフレームワークです。 Symphony とは Symphony は、AI コーディングエージェントを手動のプロンプト操作から構造化された自律実行へと移行させるためのフレームワークです。Elixir / Erlang BEAM ランタイム上に構築されており、長時間実行される独立した「実装ラン(implementation run)」を高い並行性と耐障害性で管理します。 従来の「AI にコードを書かせて PR を出す」という手動プロンプト型のワークフローを、カンバンボードのタスクカードを移動するだけで管理できるようにします。 動作の仕組み Symphony の基本的な流れは以下の通りです: 課題の読み取り — Issue トラッカー(現在は Linear をサポート)からタスクを継続的に監視 隔離ワークスペースの作成 — 各課題に対して独立したワークスペースを生成 エージェントの実行 — ワークスペース内でコーディングエージェントセッションを実行 成果物の提出 — CI ステータス、PR レビューフィードバック、複雑度分析、操作動画などの「作業証明」を提供 承認とマージ — タスクが承認されると、エージェントが安全に PR をマージ 技術的な特徴 WORKFLOW.md によるエージェント制御 エージェントのプロンプトやランタイム設定は、リポジトリ内の WORKFLOW.md に直接保存されます。これにより、AI の動作指示がコードとしてバージョン管理され、変更対象のブランチと同期されます。 Elixir / BEAM ランタイムの採用 Elixir と Erlang/BEAM ランタイムを採用することで、以下のメリットがあります: 高い並行性 — 複数のエージェントセッションを同時に管理 耐障害性 — 個別の実装ランが失敗してもシステム全体に影響しない 長時間実行への対応 — エージェントの長時間稼働を安定的にサポート Poll-Dispatch-Resolve-Land ワークフロー Symphony の中核となるワークフローパターンです: ...

2026年3月9日 · 2 分

OpenClaw とは何か:話題のオープンソース AI エージェントを徹底解説

2025年末に「Clawdbot」として登場し、2026年に入ってから GitHub スター数20万超を記録した OpenClaw が大きな話題になっています。この記事では、OpenClaw の概要、主要機能、セキュリティ上の注意点、そしてセットアップ方法までを解説します。 OpenClaw とは OpenClaw は、Peter Steinberger 氏が開発したオープンソースの AI エージェントフレームワークです。従来のチャットボットが「テキストを生成する」だけだったのに対し、OpenClaw は 実際にタスクを実行する 点が最大の特徴です。 公式サイトのキャッチフレーズは “The AI That Actually Does Things” 。ファイル操作、シェルコマンドの実行、Web ブラウジング、フォーム入力など、PC 上のさまざまな操作を AI に任せることができます。 主要機能 チャットプラットフォーム統合 WhatsApp、Telegram、Discord、Slack、Signal、iMessage など、普段使っているメッセージアプリから自然言語で指示を出せます。専用アプリや Web サイトを開く必要はありません。 実行可能なタスク メール管理: 未読メールの自動分析・優先順位付け、定型返信の作成 スケジュール調整: カレンダー確認、飲食店予約の自動実施 開発支援: GitHub コード履歴の確認、プルリクエストレビュー ブラウザ制御: Web サイト閲覧、フォーム入力、データ抽出の自動化 ローカルファースト設計 個人デバイスやローカルサーバーで動作し、Raspberry Pi のような低価格デバイスでも実行可能です。クラウド利用時も暗号化環境を採用しています。 永続的メモリ ユーザーの好みやコンテキストを記憶し、使い込むほど賢くなる仕組みが組み込まれています。 セットアップ方法 Node.js 22 以上が必要です。 1 npm install -g openclaw@latest インストール後、オンボーディングウィザードで API 設定を完了します。LLM バックエンドは Claude、GPT、Ollama 経由のローカルモデルに対応しており、自分の API キーを使う方式(BYOK)です。 ...

2026年3月9日 · 1 分

Qwen3.5-0.8B を日本語SFTしたモデル公開 — スマホで動く0.8Bパラメータの実力と小規模LLMの現在地

Qwen3.5-0.8B を日本語SFTしたモデル公開 — スマホで動く0.8Bパラメータの実力と小規模LLMの現在地 @Holy_fox_LLM 氏(ほーりーふぉっくす)のポストが、Qwen3.5-0.8B を約10万件の日本語データでフルパラメータ SFT したモデルを Hugging Face で公開しています。 Qwen3.5 0.8Bに対して約10万件超のデータを用いてフルパラでSFTしたモデルを公開しました!スマホなどの推論に最適なモデルとなっています ポストは440いいね、69リツイートと高い反響を集めています。Qwen3.5 Small シリーズが2026年3月2日にリリースされた直後のタイミングで、日本語コミュニティの素早い対応として注目されています。 Qwen3.5 Small シリーズ — 0.8B でもマルチモーダル リリースの概要 2026年3月2日、Alibaba の Qwen チームが Qwen3.5 Small シリーズを Apache 2.0 ライセンスで公開しました。0.8B、2B、4B、9B の4サイズで構成されています。 モデル パラメータ VRAM(FP16) 主な用途 Qwen3.5-0.8B 8億 約1.6GB スマホ、IoT、エッジデバイス Qwen3.5-2B 20億 約4GB 軽量サーバー、タブレット Qwen3.5-4B 40億 約8GB ローカル PC Qwen3.5-9B 90億 約18GB デスクトップ、サーバー 注目すべきは、9B モデルが OpenAI の gpt-oss-120B(13.5倍のサイズ)を GPQA Diamond ベンチマークで上回ったことです(81.7 vs 71.5)。 Gated DeltaNet アーキテクチャ Qwen3.5 Small シリーズの技術的な特徴は、Gated DeltaNet ハイブリッドアーキテクチャです。 ...

2026年3月5日 · 3 分

「Claude Ads」の正体 — Anthropic 公式ではない個人開発スキルが日本でバズった構造を解剖する

「Claude Ads」の正体 — Anthropic 公式ではない個人開発スキルが日本でバズった構造を解剖する @lapper_s_high 氏のポストが、「Claude Ads」の名前が引き起こした混乱を端的に指摘しています(いいね 482)。 開発者も日本でこんなに話題になるなんて思わなかったのでは・・ Claude Adsなんて名前つけるから。。 引用元の @ryottaman 氏のポスト(表示 27万、ブックマーク 390)が拡散の起点となり、日本の SNS では「Anthropic が広告運用ツールを出した」という誤解が広がりました。 実際には、Claude Ads は **Anthropic の公式製品ではなく、個人開発者が GitHub に公開した Claude Code 向けのスキル(拡張機能)**です。本記事では、なぜこの混乱が起きたのか、Claude Ads の実態は何なのか、そして Claude Code のスキルシステムがどのように機能するのかを解説します。 なぜ混乱が起きたのか — 3つの偶然の重なり 偶然1: Anthropic のスーパーボウル CM 2026年2月、Anthropic はスーパーボウル第60回大会で CM を放映しました。キャッチコピーは 「Ads are coming to AI. But not to Claude.」(広告は AI にやって来る。だが、Claude には来ない)。OpenAI が ChatGPT への広告導入を発表した直後のタイミングで、「Claude は広告を入れない」と宣言する内容でした。 この CM は大きな話題となり、OpenAI の Sam Altman CEO が「面白いが明らかに不誠実」と反論する事態にまで発展しています。 偶然2: 「Claude Ads」という名前 その直後、個人開発者の Daniel Agrici 氏が GitHub に公開したのが claude-ads です。これは Claude Code で広告アカウントを監査するスキルであり、「Claude を使って Ads(広告)を分析する」という意味での命名でした。 ...

2026年3月4日 · 3 分