AI/LLM

Claude Managed Agents のアーキテクチャ: Brain / Session / Hands の分離設計

前回の記事では Claude Managed Agents の概要と業界インパクトを紹介した。本記事では、Anthropic のエンジニアリングブログ「Scaling Managed Agents: Decoupling the brain from the hands」に基づき、内部アーキテクチャを掘り下げる。全体アーキテクチャ Claude Managed Agents は4つのコアコンセプトで構成される。コンセプト説明 Agent モデル、システムプロンプト、ツール、MCP サーバー、スキルの定義 Environment コンテナテンプレート（パッケージ、ネットワークアクセス、マウントファイル） Session Agent と Environment を参照して起動される実行インスタンス Events アプリケーションとエージェント間でやり取りされるメッセージ（SSE）これらの背後には、Brain / Session / Hands という3層の分離設計がある。設計思想: OS の抽象化パターン Anthropic はこのアーキテクチャの設計思想を、OS がハードウェアを抽象化した歴史に重ねている。 1970年代のディスクパックでも現代の SSD でも、read() コマンドは同じように動く。ハードウェアの実装が変わっても、その上の抽象化層（プロセス、ファイル）は安定し続けた。 Managed Agents も同じパターンを採用している。Session、Harness、Sandbox というエージェントのコンポーネントを仮想化し、インターフェースは安定させたまま、内部実装を自由に交換できる構造にした。Anthropic はこれを「メタハーネス」と呼んでいる。なぜこの設計が必要なのか。ハーネスには「モデルが自力でできないこと」に関する前提が埋め込まれるが、モデルの能力が向上するとその前提が陳腐化する。例えば Claude Sonnet 4.5 では、コンテキスト制限が近づくとタスクを早期終了する「コンテキスト不安（context anxiety）」が見られた。そこでハーネスにコンテキストリセットを追加した。しかし Claude Opus 4.5 ではこの振る舞いが消え、リセット機能は無駄な荷物になった。 ...

Claude Managed Agents: Anthropicが本番運用可能なエージェント基盤をパブリックベータで公開

2026年4月8日、Anthropicが「Claude Managed Agents」をパブリックベータとして公開した。AIエージェントの本番運用に必要なインフラをすべてマネージドで提供するサービスで、エージェント構築のコストと期間を劇的に削減する。 Claude Managed Agents とは Claude Managed Agents は、AIエージェントの構築・デプロイ・運用に必要なインフラを一括提供する API スイートだ。開発者はモデル、システムプロンプト、ツール、MCP サーバーを定義するだけで、本番レベルのエージェントを稼働させられる。提供される主な機能: セキュアなサンドボックス: エージェントの実行環境を安全に分離長時間実行セッション: 数時間にわたるタスクも途中状態を維持しながら処理状態管理: コンテキストウィンドウの外に永続的なセッションログを保持マルチエージェント連携: 複数のエージェントが協調して動作するフリート管理 MCP 統合: HubSpot などの外部サービスと即座に連携可能スコープ付き権限管理: エージェントごとに適切なアクセス制御を設定 platform.claude.com から利用でき、API 従量課金に加えてセッション時間あたり $0.08 の料金が発生する。エージェント構築市場へのインパクトこの発表が業界で大きな反響を呼んでいるのは、エージェント構築の構造そのものを変える可能性があるためだ。開発期間の短縮これまでエージェントを本番運用するには、サンドボックス、状態管理、認証、長時間実行、マルチエージェント協調といったインフラを自前で構築する必要があった。Claude Managed Agents はこれらをすべてマネージドで提供するため、月単位だった開発が日単位に短縮される。既存プレイヤーへの影響 LangChain は Deep Research エージェントだけで1年かけて4つのアーキテクチャを開発してきた。Manus は6ヶ月で5回のハーネス書き直しを行った。Anthropic はこうした領域をファーストパーティのマネージドサービスとして一気に抽象化した形だ。「Claude を本番で安定稼働させる」ことを売りにしていたエージェントスタートアップにとっては、ビジネスモデルの根本的な見直しを迫られる状況と言える。 AWS のサーバーレス革命との類似企業が求めているのは「エージェントのインフラを構築すること」ではなく「動くエージェント」そのものだ。AWS がサーバー管理を EC2 で抽象化したのと同じ構造で、Anthropic はエージェント構築という市場そのものを縮小させる可能性がある。既に本番運用している企業 Anthropic の発表によると、Notion、Rakuten、Asana、Sentry がすでに Claude Managed Agents を本番環境で運用している。公式デモのダッシュボードでは、複数のエージェントがフリートとして稼働しタスクを処理している様子が確認できる。 OpenClaw 遮断との関連発表の4日前、Anthropic は OpenClaw をはじめとするサードパーティ製ハーネスによるサブスクリプション認証情報の利用をブロックした。消費者向け認証レイヤーの上にサービスを構築することを止め、代わりにファーストパーティのマネージドプラットフォームを提供するという戦略が明確になった。 ...

Exbrain — Claude Code × Obsidian で「外付けAI脳」を構築する

チャエン（@masahirochaen）さんが「外付けのAI脳」と名付けたシステム Exbrain を GitHub で公開した。Claude Code × Obsidian × 常駐エージェントを組み合わせて、記憶・日報・クリッピングを全自動化するという意欲的なプロジェクトだ。 GitHub: chaenmasahiro0425/exbrain Exbrain とは Exbrain は「自分の外側にある AI の脳」を目指したパーソナル PKM（Personal Knowledge Management）システムだ。Karpathy が提唱した「LLM Wiki」パターンの実装版として設計されており、AIが継続的に自分の経験・価値観・目標を学習し続ける仕組みを提供する。主な特徴: 毎朝の日報自動作成: AI がカレンダー・Slack・Gmail を読み込み、その日のブリーフィングを自動生成毎夕の振り返り: AI が1日の行動を分析し、繰り返しパターン（例:「月曜は会議10件が3週連続」）を検出・記録自動クリッピング: X でブックマークした記事やツイートを約4時間後に自動要約して Obsidian に蓄積 Slack 連携: Slack の DM に URL を投げるだけで即座にクリップ常時稼働: PC を閉じた状態・就寝中でもエージェントが動き続ける iPhone で全部読める: Obsidian の同期により、モバイルからもアクセス可能 SOUL / MEMORY / DREAMS の3ファイル設計 Exbrain の核心は、自分自身を表現する3つの Markdown ファイルだ。ファイル役割 SOUL.md 自分は誰か（価値観・境界線） MEMORY.md 何を経験したか（決定・学び） DREAMS.md どこに向かうか（洞察・未解決の問い） AI はこの3ファイルを毎日読み込み、そのコンテキストをもとに振り返りや提案を行う。単なるメモ帳ではなく、AIが自分のことを「知っている」状態を維持する仕組みだ。 ...

Gemini Agentモード：Google Workspaceを丸ごと自動化するAIエージェントの実力

GoogleのGemini Agentモードが、AIエージェント界隈で大きな注目を集めている。Gmail、カレンダー、Drive、スライドといったGoogle Workspaceアプリを横断し、複雑なタスクを自動処理できる機能だ。従来のチャットAIとは一線を画すその実力を、OpenClawとの比較も交えて見ていく。 Gemini Agentモードとは Gemini Agentモードは、Googleが提供するAIアシスタント「Gemini」に搭載されたエージェント機能だ。従来のチャット型AIとは異なり、ユーザーの指示に基づいて計画を立て、複数のアプリやサービスを横断して、タスクを自律的に実行する。主な特徴は以下の通り。マルチステップタスクの自動実行: 計画→情報収集→処理→出力を一連の流れで実行 Google Workspace連携: Gmail、Google Calendar、Google Drive、Keep、Tasks等と統合ライブウェブブラウジング: Webサイトを開いて情報を収集・比較ユーザーコントロール: 重要なアクション（メール送信、購入など）の前に確認を求める具体的にできること Gemini Agentモードの強力さは、実務的なタスクを連鎖的に処理できる点にある。 Google Workspace連携の例 Gmailの未返信メールを確認して要点を整理返信案を自動作成カレンダーで候補日を確認してスケジュール調整 Driveの資料を参照 Googleスライドで提案資料を作成これらを1つのプロンプトで連続処理できる。ブラウザ操作 Webサイトを開いて情報を収集 YouTubeを情報源として調査 ToDoリストへの追加不要メールのアーカイブ定期実行（スケジュールドアクション） Gemini Agentモードの特筆すべき機能の1つがスケジュールドアクションだ。「毎日」「毎週」などの頻度でタスクを定期実行できる。繰り返し頻度は毎時・毎日・毎週・毎月・毎年から選択でき、実行時間もカスタマイズ可能だ。例えば、以下のような自動化が実現できる。毎朝のメール要約とカレンダー確認週次のプロジェクト進捗レポート作成定期的なDrive内ファイルの整理 AIを「使う」のではなく、AIを「働かせる」という発想の転換だ。 OpenClawとの比較 OpenClawは、2025年11月にオーストリアの開発者Peter Steinbergerが「Clawdbot」として公開したオープンソースのAIエージェントだ。Anthropicからの商標問題を受けて「Moltbot」に改名し、その後「OpenClaw」へ変更された。GitHubスターは25万を超え、開発者コミュニティで大きな注目を集めている。ファイル操作、シェルコマンド実行、ブラウザ操作など100以上のビルトインスキルを備える。項目 Gemini Agent OpenClaw 提供形態 Googleのクラウドサービスオープンソース（セルフホスト） Google Workspace連携ネイティブ統合 API経由で設定が必要定期実行標準機能自前での設定が必要カスタマイズ性限定的高い（スキル追加可能）セキュリティ Googleの管理下スキルの安全性は自己責任料金 Google AI Ultra（有料）無料（LLM APIは別途） Gemini Agentの強みは、Google Workspaceとのネイティブ統合とスケジュール実行の手軽さだ。一方、OpenClawは高いカスタマイズ性とセルフホストによるデータ管理が利点となる。 ...

Gemma 4 31B vs Qwen3.5-27B — ローカルLLM最強はどちらか

2026年春、ローカルで動かせる高性能 LLM の選択肢が充実してきた。中でも注目なのが Google の Gemma 4 31B（2026年4月リリース、Apache 2.0）と Alibaba の Qwen3.5-27B（2026年2月リリース）だ。どちらも密（dense）モデルで、Apple Silicon Mac や RTX 4090 クラスの GPU で実用的に動作する。結論を先に述べると、推論・マルチモーダルなら Gemma 4、コーディング・メモリ効率なら Qwen3.5 が適している。本記事では、その判断根拠を主要な観点から比較する。基本スペック比較項目 Gemma 4 31B Qwen3.5-27B パラメータ数 31B 27B アーキテクチャ Dense Transformer（Hybrid Attention） Dense（Gated Delta Net + FFN）コンテキスト長 256K トークン 262K トークン（最大 1M 拡張可）対応言語 140+ 言語 201 言語マルチモーダルビジョン（画像理解・OCR）ビジョン（画像理解）ライセンス Apache 2.0 Apache 2.0 開発元 Google DeepMind Alibaba Qwen 両モデルとも Apache 2.0 ライセンスで、商用利用に制限がない。コンテキスト長はほぼ同等だが、Qwen3.5 は 1M トークンまでの拡張に対応している点で有利だ。 ...

Gemma 4がAPI経済を破壊する — オープンモデルがSaaS課金モデルを変える理由

Gemma 4 が「すごいオープンソースモデル」として話題になっている。しかし、本当に注目すべきポイントはモデル性能だけではない。GoogleがAPI経済の構造そのものに挑戦しているという点だ。 Gemma 4のラインナップ Gemma 4は4つのサイズで提供されている。モデルパラメータ推論時アクティブコンテキスト用途 31B Dense 31B 31B 256K サーバー/ワークステーション 26B MoE 26B 約3.8B 256K サーバー/ワークステーション E4B 非公表約4B 128K エッジデバイス E2B 非公表約2.3B 128K スマートフォン注目は 26B MoE だ。総パラメータ数は26Bだが、Mixture-of-Experts（MoE）アーキテクチャにより推論時にアクティブなのは約3.8Bのみ。これにより、RTX 4090のような一般的なGPUでも十分に動作する。 API課金モデルへのインパクト従来のAI搭載SaaSは、以下のようなコスト構造を持つ。 1 2 3 ユーザーリクエスト → 自社サーバー → OpenAI/Anthropic API → レスポンス ↑ リクエストごとに課金この構造では、ユーザーが増えるほどAPI費用が増加する。特にスタートアップにとって、スケールするほど外部API費用が利益を圧迫する「API課金の罠」に陥りやすい。 Gemma 4は、この構造を根本から変える可能性がある。 1 2 3 ユーザーリクエスト → 自社サーバー（Gemma 4稼働） → レスポンス ↑ 固定のインフラコストのみ Apache 2.0ライセンスで商用利用に制限がなく、カスタムの利用規約や解約条項もない。自社サーバーでモデルを稼働させれば、コストはインフラの固定費だけになる。 ...

Microsoft BitNet完全オープンソース化：GPUなしで1000億パラメータLLMをCPUで動かす時代へ

Microsoftが開発した1-bit LLM推論フレームワーク「BitNet」が完全にオープンソース化されました。bitnet.cppを使えば、1000億パラメータ規模のLLMをGPUなしでCPU上で実行できます。 BitNetとは BitNetは、Microsoft Researchが開発した1-bit LLM（大規模言語モデル）専用の推論フレームワークです。従来のLLMが16bitや32bitの浮動小数点で重みを保持するのに対し、BitNetではすべての重みを -1、0、+1の3値（log2(3) ≒ 1.58bit）で表現します。 GitHub: microsoft/BitNet（37,000+スター）ライセンス: MIT License 技術レポート: BitNet b1.58 2B4T Technical Report 主な特徴 GPU不要のCPU推論 bitnet.cppは、llama.cpp（LLM向け軽量推論エンジン）をベースに1-bit推論向けに最適化されたC++フレームワークです。専用カーネルにより、ternary演算（3値演算）をCPU上で高速に実行します。 x86 CPU: 従来比 2.37〜6.17倍の高速化 ARM CPU: 従来比 1.37〜5.07倍の高速化 2026年1月のアップデートでさらに 1.15〜2.1倍の追加高速化を達成省エネルギー・省メモリエネルギー削減: x86 CPUで 71.9%〜82.2%、ARM CPUで 55.4%〜70.0% の削減メモリ使用量: BitNet b1.58 2B-4Tモデルはわずか 0.4GB（同規模の通常モデルは1.4〜4.8GB） BitNet b1.58 2B-4T モデル Microsoftが公開した初のオープンソースのネイティブ1-bit LLMです。パラメータ数: 24億（2.4B）学習データ: 4兆トークン（4T）アーキテクチャ: BitLinearレイヤーを組み込んだTransformerベース主な技術: RoPE（回転位置埋め込み）、Squared ReLU活性化関数、subln（サブレイヤー正規化）重み: ネイティブ1.58bit、活性化は8bit（W1.58A8）同規模のフル精度モデルと同等の性能を達成しています。なぜ重要なのかローカルAI・エッジコンピューティングの民主化これまで大規模LLMの実行には高価なGPUが必須でしたが、BitNetにより一般的なPCやエッジデバイスでも実用的な推論が可能になります。 GPU依存からの脱却 NVIDIA GPUへの依存度を大幅に下げられることで、AI開発・運用のコスト構造が変わる可能性があります。特に中小企業やスタートアップにとって、AIの導入障壁が大きく下がります。 ...

OpenClaw に動画生成機能が正式搭載へ — AI エージェントが制作まで完結する時代

OpenClaw の創業者 Peter 氏が、次のバージョンで動画生成機能を正式搭載することを発表した。これにより、AI エージェントがテキストから動画生成までを一気通貫で完結できるようになる。動画生成の対応プロバイダー次バージョンでは、以下のプロバイダーが最初からサポートされる予定だ。 Alibaba BytePlus fal Google MiniMax OpenAI Qwen Together xAI 主要な動画生成 AI サービスをほぼ網羅しており、ユーザーはプロバイダーを選んでワークフロー内で動画を生成できるようになる。これまでとこれからの違いこの機能追加の意義は、ワークフローの断絶をなくすことにある。これまでテキスト → 画像生成 → 外部ツールで動画化外部ツールへの手動エクスポートが必要で、エージェントのフローが途切れていた。これからテキスト指示 → AI エージェントが動画生成まで完結エージェントが動画生成まで一手に担うことで、制作フローをエンド・ツー・エンドで自動化できる。「もう 1 人の自分」から「チームそのもの」へこれまで OpenClaw は「もう 1 人の自分」として個人の作業を補助する位置づけだったが、動画生成の搭載によって**「チームそのもの」**として機能し始めていると言える。テキスト生成・コード生成に加え、映像制作まで担当複数の動画生成プロバイダーに対応することで、用途に応じた使い分けが可能 AIエージェントが「考える」だけでなく「制作する」領域まで拡張まとめ OpenClaw への動画生成機能の追加は、AI エージェントの役割が「情報処理・生成支援」から「クリエイティブ制作」へと拡張する大きな転換点だ。9 つの主要プロバイダーへの対応により、動画コンテンツの制作フローを AI エージェント内で完結させられる可能性が開かれた。正式リリース時には、具体的なプロンプト設計や各プロバイダーとの使い分けについても検証していきたい。情報ソース: @ichiaimarketer のポスト（2026-04-07）元ツイートを見る

Claude Code のデフォルト設定でトークンを無駄にしていた話

Claude Code を使っていて「なんかコストかかるな…」と思ったことはないでしょうか。以前、デフォルト設定のまま使い続けると推定 2 億 6,400 万トークンもの無駄が発生するという事例が話題になりました。その後 Claude Code 自体が大幅に改善されましたが、トークン消費を意識した使い方は今でも重要です。本記事では、現在のバージョン（2026年4月時点）で有効な最適化ポイントを整理します。ツール検索の遅延ロード（Deferred Tools）以前の Claude Code では、すべてのツール定義がセッション開始時にコンテキストに読み込まれ、大量のトークンを消費していました。ENABLE_TOOL_SEARCH を明示設定することで改善できるという報告もありました。現在のバージョンでは、この問題はビルトインで解決されています。ツール定義は「遅延ロード（Deferred Tools）」方式に変わり、ツール名だけがコンテキストに載り、実際のスキーマは必要になった時点で初めてロードされます。ENABLE_TOOL_SEARCH を手動で設定する必要はありません。プロンプトキャッシュの 5 分 TTL — 今も最大の落とし穴 Claude のプロンプトキャッシュは 5 分で期限切れになる。これは現在も変わっておらず、トークンコストに最も影響する要素だ。 5 分休憩しただけで、会話全体が再処理され、コストが 10 倍以上に跳ね上がることがある。つまり: 長時間セッションの途中で離席するちょっと休憩してから作業再開する別の作業をしてから Claude Code に戻ってくるといった行動がすべて、想定外のコスト増につながる。「休憩明けの最初のメッセージが一番高い」というのは、このキャッシュ再処理が原因だ。キャッシュを意識した作業フロー 5 分以内に次の操作を行う — キャッシュが維持される長い離席の前にセッションを終了する — 戻ってきたら /resume で再開した方が、コンテキストが圧縮されて効率的タスクの区切りで /compact を実行する — 手動でコンテキストを圧縮し、次のキャッシュミス時のコストを下げるコンテキスト自動圧縮を活かす Claude Code はコンテキストウィンドウの上限に近づくと、過去の会話を自動的に圧縮する。この仕組みのおかげで、長時間セッションでも会話が途切れることはない。ただし、圧縮時にはトークンが消費される。不要にコンテキストを膨らませないことが、結果的にコスト削減になる。コンテキストを膨らませない工夫やりがちなこと改善策大きなファイルを全行読む必要な範囲だけ offset / limit 指定で読むビルドログをそのまま流すエラー時だけ出力を確認する試行錯誤を同一セッションで続ける方針が変わったら新しいセッションで仕切り直す CLAUDE.md に大量の指示を詰め込む必要最小限に保つ（毎ターンのコンテキストに載る）現在のビルトイン最適化機能 2026年4月時点で Claude Code に組み込まれている主なトークン最適化機能: ...

Gemma 4 31Bの脱獄モデル「CRACK」登場 — Abliteration技術でセーフティを除去

Google の Gemma 4 31B モデルをベースに、安全性制限を除去した「Gemma-4-31B-JANG_4M-CRACK」が Hugging Face で公開された。開発元の dealignai は、Abliteration（アブリテレーション）と呼ばれる手法でモデルの拒否行動を除去した。知識性能の劣化は MMLU で -2.0% にとどまる。 Abliteration とは何か Abliteration は、LLM の学習済み拒否メカニズムを再学習なしで除去する手法だ。2024年頃から研究が進み、現在では複数のバリエーションが存在する。基本的な仕組みは以下の通り: 拒否方向の特定: 有害なプロンプトと無害なプロンプトをモデルに入力し、残差ストリーム（Transformer 内部の中間表現が流れる経路）の活性化を記録する。両者の平均差分ベクトルが「拒否方向」（refusal direction）となる重み直交化: 特定した拒否方向に対してモデルの重み行列を直交化（orthogonalization）する。直感的には、拒否方向の成分を重みから差し引く操作にあたる。これにより、モデルはその方向への活性化を生成できなくなる性能保持: 拒否方向のみをターゲットにするため、モデルの汎用的な知識や推論能力への影響は最小限に抑えられる最近の改良版である Norm-Preserving Biprojected Abliteration では、ベクトルのノルムを保持しながら除去を行うことで、さらに性能劣化を抑えている。 CRACK モデルのスペック項目値ベースモデル google/gemma-4-31b-it アーキテクチャ Dense Transformer + Hybrid Sliding/Global Attention 量子化プロファイル JANG_4M（CRITICAL=8-bit, COMPRESS=4-bit）平均ビット数 5.1 bits モデルサイズ 18 GB ビジョンマルチモーダル対応（ビジョンエンコーダは量子化せず float16 を維持）フォーマット JANG v2（MLX ネイティブ safetensors） JANG_4M のビット割り当て JANG プロファイルの特徴は、アテンション層とMLP層で異なるビット精度を割り当てる点にある: CRITICAL（8-bit）: Attention の Q/K/V/O 重み、エンベディング COMPRESS（4-bit）: MLP の gate/up/down projection、その他の重み Dense モデルは MLP 部分の量子化耐性が高いため、この戦略により 18GB という実用的なサイズを実現している。 ...