Gemini Agentモード:Google Workspaceを丸ごと自動化するAIエージェントの実力

GoogleのGemini Agentモードが、AIエージェント界隈で大きな注目を集めている。Gmail、カレンダー、Drive、スライドといったGoogle Workspaceアプリを横断し、複雑なタスクを自動処理できる機能だ。従来のチャットAIとは一線を画すその実力を、OpenClawとの比較も交えて見ていく。 Gemini Agentモードとは Gemini Agentモードは、Googleが提供するAIアシスタント「Gemini」に搭載されたエージェント機能だ。従来のチャット型AIとは異なり、ユーザーの指示に基づいて計画を立て、複数のアプリやサービスを横断して、タスクを自律的に実行する。 主な特徴は以下の通り。 マルチステップタスクの自動実行: 計画→情報収集→処理→出力を一連の流れで実行 Google Workspace連携: Gmail、Google Calendar、Google Drive、Keep、Tasks等と統合 ライブウェブブラウジング: Webサイトを開いて情報を収集・比較 ユーザーコントロール: 重要なアクション(メール送信、購入など)の前に確認を求める 具体的にできること Gemini Agentモードの強力さは、実務的なタスクを連鎖的に処理できる点にある。 Google Workspace連携の例 Gmailの未返信メールを確認して要点を整理 返信案を自動作成 カレンダーで候補日を確認してスケジュール調整 Driveの資料を参照 Googleスライドで提案資料を作成 これらを1つのプロンプトで連続処理できる。 ブラウザ操作 Webサイトを開いて情報を収集 YouTubeを情報源として調査 ToDoリストへの追加 不要メールのアーカイブ 定期実行(スケジュールドアクション) Gemini Agentモードの特筆すべき機能の1つがスケジュールドアクションだ。「毎日」「毎週」などの頻度でタスクを定期実行できる。繰り返し頻度は毎時・毎日・毎週・毎月・毎年から選択でき、実行時間もカスタマイズ可能だ。 例えば、以下のような自動化が実現できる。 毎朝のメール要約とカレンダー確認 週次のプロジェクト進捗レポート作成 定期的なDrive内ファイルの整理 AIを「使う」のではなく、AIを「働かせる」という発想の転換だ。 OpenClawとの比較 OpenClawは、2025年11月にオーストリアの開発者Peter Steinbergerが「Clawdbot」として公開したオープンソースのAIエージェントだ。Anthropicからの商標問題を受けて「Moltbot」に改名し、その後「OpenClaw」へ変更された。GitHubスターは25万を超え、開発者コミュニティで大きな注目を集めている。ファイル操作、シェルコマンド実行、ブラウザ操作など100以上のビルトインスキルを備える。 項目 Gemini Agent OpenClaw 提供形態 Googleのクラウドサービス オープンソース(セルフホスト) Google Workspace連携 ネイティブ統合 API経由で設定が必要 定期実行 標準機能 自前での設定が必要 カスタマイズ性 限定的 高い(スキル追加可能) セキュリティ Googleの管理下 スキルの安全性は自己責任 料金 Google AI Ultra(有料) 無料(LLM APIは別途) Gemini Agentの強みは、Google Workspaceとのネイティブ統合とスケジュール実行の手軽さだ。一方、OpenClawは高いカスタマイズ性とセルフホストによるデータ管理が利点となる。 ...

2026年4月7日 · 1 分

Claude Code

概要 Anthropic が開発する CLI ベースの AI コーディングエージェント。ターミナル上で対話しながらコードの読み書き、ファイル操作、git 操作、テスト実行などを行える。 主な特徴 CLI ネイティブ: ターミナルで直接対話(IDE 拡張版も提供) ツール統合: ファイル読み書き、Bash 実行、Grep/Glob 検索、Web 検索等 CLAUDE.md: プロジェクトごとのルール・設定ファイル(圧縮後も再読み込みされる) サブエージェント: 複雑なタスクを並列エージェントに委任可能 スキル/フック: カスタムワークフローの定義と自動化 コンテキスト管理 5段階の圧縮カスケードでコンテキストウィンドウを管理する: Microcompact → Context Collapse → Session Memory → Full Compact → PTL Truncation 詳細: コンテキスト圧縮 LLM Wiki との関連 Karpathy は Claude Code を LLM Wiki の実行環境として使用。「左画面に Claude Code、右画面に Obsidian」というワークフローを実践。 関連ページ コンテキスト圧縮 — Claude Code のコンテキスト管理戦略 LLM Wiki パターン — Claude Code を活用した知識管理パターン AutoAgent — Claude Code をメタエージェントとして活用可能 ソース記事 Claude Code のコンテキスト圧縮戦略 — 2026-04-02 Karpathy の LLM Wiki — 2026-04-05

2026年4月6日 · 1 分

Karpathy の LLM Wiki — AIエージェントが育てる個人ナレッジベースという新パターン

Andrej Karpathy が GitHub に「ファイル1つ」をアップロードし、10時間で星1,700超・フォーク300超を記録した。コードでもアプリでもない、マークダウン文書1枚だ。名前は llm-wiki.md。この文書が提案するのは、LLM エージェントに個人ナレッジベース(Wiki)を継続的に構築・保守させるというパターンだ。 RAG の限界 — 毎回ゼロから読み直す問題 現在、多くの人が AI に対してやっていることは「ファイルを渡して要約させる」「質問のたびにドキュメントを検索させる」の繰り返しだ。これは RAG(Retrieval-Augmented Generation: 検索で補強した文章生成)と呼ばれる手法で、技術的には問題ない。 しかし Karpathy はこの方式を「毎日同じ本を初めて読む人に質問を投げるようなもの」と表現する。AI は昨日読んだ内容を今日忘れる。蓄積がない。5つの文書を横断して初めてわかる微妙な問いには、毎回断片をかき集めて一からつなぎ合わせる必要がある。 LLM Wiki のアイデア — 知識を「積み上げる」 Karpathy が提案するのは、AI にドキュメントを読ませるたびにWiki を更新させるというアプローチだ。 新しい資料を投入するたびに、AI は: 要約ページを作成する 既存のエンティティページ・概念ページを更新する 相互参照リンクを張る 矛盾があればフラグを立てる インデックスとログを更新する つまり、知識は一度コンパイルされて保持され、クエリのたびに再導出されるのではない。Wiki は永続的で複利的に成長するアーティファクトになる。 三層構造 LLM Wiki のアーキテクチャはシンプルな三層構造だ。 1. Raw Sources(原本資料) 論文、記事、メモなど、ユーザーがキュレーションした元資料。AI はこれを読むだけで、絶対に変更しない。これが信頼できる唯一の情報源(source of truth)となる。 2. Wiki(知識ベース) AI が生成・保守するマークダウンファイル群。要約ページ、エンティティページ、概念ページ、比較ページ、概要、統合的な考察など。ユーザーが読み、AI が書く。 3. Schema(設定) AI に「この Wiki をどう管理するか」を伝える設定ファイル。Karpathy は AI エージェントの設定ファイル(CLAUDE.md や AGENTS.md)に置くことを推奨している。Wiki の構造、命名規則、取り込みワークフロー、回答フォーマットなどを定義する。 三つの基本操作 操作 内容 Ingest(取り込み) 新しい資料を投入し、AI に読ませて Wiki を更新させる。1つの資料で10〜15ページが更新されることもある Query(質問) Wiki に対して質問する。AI はインデックスから関連ページを探し、統合的に回答する。良い回答は新しい Wiki ページとして保存できる Lint(保守) 定期的に Wiki の健全性をチェックする。矛盾、古い記述、孤立ページ、欠落リンクなどを検出・修正する 「アイデアファイル」という新しい共有形態 この llm-wiki.md が爆発的に広まった理由について、Karpathy 自身がこう述べている: ...

2026年4月5日 · 1 分

LLM Wiki パターン

概要 Andrej Karpathy が提案した、LLM エージェントに個人ナレッジベース(Wiki)を継続的に構築・保守させるパターン。RAG が「毎回ゼロから読み直す」のに対し、LLM Wiki は知識を積み上げて複利的に成長させる。 三層構造 層 役割 誰が扱うか Raw Sources 論文・記事・メモなどの原本資料 人間がキュレーション、AI は読むだけ Wiki AI が生成・保守するマークダウン群 AI が書き、人間が読む Schema AI への管理指示(構造・命名規則・ワークフロー) 人間が定義 三つの基本操作 Ingest(取り込み): 新しい資料を投入し、AI に Wiki を更新させる Query(質問): Wiki に対して質問し、統合的な回答を得る Lint(保守): 矛盾・古い記述・孤立ページなどを定期チェック なぜ機能するか 人間が Wiki を放棄する主因は保守コスト。LLM は相互参照の更新、要約の最新化、一貫性維持を飽きずに続けられる。保守コストがほぼゼロになることで Wiki が持続する。 関連ページ コンテキスト圧縮 — LLM の文脈管理における関連技術 Claude Code — LLM Wiki の実行環境として利用可能 ソース記事 Karpathy の LLM Wiki — AIエージェントが育てる個人ナレッジベースという新パターン — 2026-04-05

2026年4月5日 · 1 分

「toA」時代の到来 — AIエージェント向けサービス200超が示す新市場の全体像

「toC」でも「toB」でもない。AIエージェントそのものがお客さんになる——「toA」という新しい市場が急速に立ち上がっています。paji氏(@paji_a)がリサーチした200超のサービスから見えてきた、この新市場の構造を紹介します。 Claudeヤバい、1日で”toA”デモできた… https://t.co/olgPwJ1SIr pic.twitter.com/P46txbWVHh — paji.eth (@paji_a) March 29, 2026 なぜ「toA」が生まれたのか 2026年はAIエージェントの普及が一段と進む年です。Claude Cowork / Dispatch、Manus、OpenClawなど、年明けからAIエージェントに関するリリースが途切れることなく続いています。 ここで起きている変化は明確です。エージェントを作るツールに加え、エージェントが実際に使う周辺サービスが急増し始めました。 メールアドレスの発行、長期記憶の保存、Webサイトの操作手順を教えてくれるサービス、仕事を受注して報酬を受け取るマーケットプレイス。主な導入者は人間の開発者や企業ですが、用途はAIエージェントの運用インフラです。 「人間向け」には成熟していたデジタルサービスの領域が、「AIエージェント向け」には別の問題として再出現している——これが「toA」市場の本質です。 エージェントの「5つの生存条件」 200を超えるtoAサービスを分類すると、ひとつの構造が浮かび上がります。エージェントが自律的に動くには、以下の5つの条件が必要です。 条件 説明 代表カテゴリ 「私は誰か」 存在証明 メール、ID、SNS 「安全に作業できる場所」 実行環境 サンドボックス、GPU推論 「外の世界を操作する手段」 ブラウザ・外部接続 Web自動操作、プロキシ、OAuth 「経験を蓄積する力」 記憶 長期記憶、コンテキスト管理 「対価を受け取る仕組み」 経済活動 マーケットプレイス、エスクロー、決済 この5つが揃って初めて、エージェントは自律的に仕事ができます。一つでも欠けると止まります。そして多くのサービスが、この5つのどれかを埋めるために生まれていました。 残りのカテゴリ(監視、ガードレール、音声、通信など)は、5つの基盤の上に乗る「運用・拡張レイヤー」として位置づけられます。 枯れた領域に次々と新種が生まれている メール — AgentMail 人間向けのメールサービスはGmailが圧倒的で、今さら新規参入する余地はなさそうに見えます。でも「AIエージェント専用のメール」となると話は別です。APIで即座にメールボックスが作れて、スレッド管理も添付解析も全部プログラムから操作できて、メールで届くOTP/2FA(ワンタイムパスワード/二要素認証)コードも取得できる。AgentMailはY Combinator出身で、600万ドル(約9億円)を調達しています。 記憶 — Mem0 人間はメモ帳やNotionに書き残すことで記憶を補強しますが、エージェントにはそもそもセッションをまたぐ記憶がありません。Mem0は会話からファクトを自動抽出して保存し、次のセッションで関連記憶を自動注入してくれます。人間のメモ帳のエージェント版です。 Webブラウジング — Agent Maps 人間はGoogle Mapsで店を探してクリックして予約しますが、エージェントは「ボタンがどこにあるか」を毎回スクリーンショットから推測しないといけない。Agent Mapsは主要サイトの操作手順をあらかじめ検証済みの「攻略本」としてエージェントに渡します。 外部ツール連携 — Composio 人間はSlackにログインしてメッセージを送りますが、エージェントはOAuth認証のフローを安定してさばくのが難しい。Composioは500以上のアプリ接続とOAuth処理を提供します。 「稼ぐエージェント」と「使うエージェント」 さらに踏み込んだ領域もあります。 HYRVE AIは、AIエージェントが「フリーランサー」として活動するマーケットプレイスです。48時間のエスクロー保護付きで、エージェントが別のエージェントを雇うこともできます。「エージェントが自律的に稼ぐ」というコンセプトは、この先どこかのプレイヤーが必ず大きく育てる領域です。 一方、Anonは、ログイン情報そのものではなく認証済みセッションをエージェントに安全に扱わせるサービスです。エージェントに「自分のアカウントで注文しておいて」と頼みたいけど、パスワードを直接渡すのは怖い。Anonはログイン済みの状態だけをエージェントに渡すので、エージェントは操作できるけどパスワード自体には触れられません。 「稼ぐエージェント」と「使うエージェント」。この両方のインフラが同時に立ち上がっているのが2026年の面白いところです。 toAの「エッジ」がプラットフォームになる AIの時代に本当に価値を持つのは、AIモデルそのものだけではなく、AIが「動く」ために必要な周辺インフラです。 存在証明、実行環境、操作手段、記憶、経済活動。これらのインフラを押さえたサービスが、AI時代の重要なプラットフォームになっていく。枯れ尽くしたデジタルサービスの「エッジ」にいるtoAサービス群に、大きなチャンスがあります。 新しいtoAサービスが今後どんなに増えても、「5つの生存条件」+「運用・拡張」という二層構造の中のどこかに位置づけられるはずです。ここを押さえておくと、新サービスが出てきたときに「これはどの条件を埋めるものか」が即座に判断できます。 まとめ 「toA」は既存市場の延長ではなく、新しいカテゴリそのもの エージェントの自律動作には5つの生存条件(存在証明・実行環境・操作手段・記憶・経済活動)が必要 人間向けに成熟した領域が、エージェント向けに再発明されている 200超のサービスが既に存在し、この市場は急拡大中 詳細な200サービスのリストは、paji氏の記事「AIエージェント向けサービス200選」で確認できます。

2026年3月30日 · 1 分

AI社員40人を作って1ヶ月で全部やめた話 — 壊れない設計のために知っておくべきこと

Claude Code のエージェントを40体つくり、役割を分けてルールを書いて階層もつくった。1ヶ月後、ぜんぶやめた。こはく氏(@Kohaku_NFT)の実体験レポートから、AIエージェント大量運用が構造的に壊れる理由と、そこから見えた「壊れない設計」の考え方を整理する。 やったこと Claude Code の Max プラン(月$200)1アカウントで検証 リーダー、ライター、リサーチャー、コーダー、レビュアーなど40体のエージェントを構築 役割分担、ルール、階層、性格設定まで丸2日かけて設計 最初の3日間は動いた。指示を出せばちゃんと返ってくる。SNS でスクショをあげようとした矢先に崩壊が始まった。 壊れる3つの構造的理由 理由1: Context Rot(記憶の腐敗) Context Rot とは、コンテキストウィンドウに情報が溜まるほど古い情報の精度が落ちる現象のこと。Anthropic の公式ドキュメントにも「トークン数が増えるほど、精度と想起(思い出す力)が劣化する」と明記されている。 1000ページの社内マニュアルと同じ構造 — 人間が全ページを暗記できないように、AIも情報が多すぎると処理しきれなくなる 「100万トークン入る」と「安定して使える」は別物 — 公式でさえ「文脈は大きければいいわけではない」と警告している こはく氏の実測では、10万トークンを超えるとブレが目立ち始めた ルール、コード、会話履歴が積み上がるほど再現性は低下する。 理由2: Compaction 後に構成が崩れる 長時間運用すると、コンテキストウィンドウの容量を確保するために前半の会話内容が自動で要約・圧縮される仕様(compaction)がある。Claude Code の公式リリースノートにも「圧縮後に一部のエージェントが消えたり、重複して生成される不具合」が明記されている。 会話の流れの中だけで役割や引き継ぎを設定していると、圧縮が走った瞬間にその前提ごと消え去る 会社でいうと「引き継ぎなしの二重配属」 — 過去の議事録を読まずに中途配属され、すでに同じ業務をしている人がいることも知らない状態 40人体制で3時間回せば、ほぼ確実に圧縮が走る。そのたびに「今、誰が消えた?」を人間が確認するハメになる 理由3: テキストのルールは絶対命令じゃない 「自分で作業するな。指示だけ出せ」と書いても、Claude が毎回きれいに従うとは限らない。 LLM にとってルール文は、絶対命令ではなく、文脈の一部として処理される。履歴、途中のやりとり、直前の出力に引っ張られて解釈がズレる。 最近の評価研究でも、LLM は「どの指示を優先するか」の判断や長い文脈での安定した instruction following に弱さがあると報告されている。ルールが増えて競合し始めるほどズレる前提で見たほうがいい。 厳密に書けば書くほど、今度はルールが長くなって context rot が進む。この構造そのものが、人数を増やしたときの壁になる。 「育てれば良くなる」は順番の問題 「使い込むほど育つ」とよく聞くが、ここで否定しているのは育成そのものではなく順番の話。 guidelines を育てるということは、ファイルが増えるということ。ファイルが増えるということは、コンテキストが重くなるということ。つまり context rot が加速するだけ。 壊れやすい仕組みの上に知識を積んでも、崩れやすくなるだけだ。 人間の会社で考えても同じ: エスカレーションルールがない トラブル時の判断基準がない 報告のかたちもない そんな会社は人を増やすほど混乱する。AI組織もまったく同じ構造。 エージェントには視野がない ここが核心。 ...

2026年3月30日 · 1 分

OpenClaw で YouTube 運用を全自動化? 「月1000万円」の主張を技術的に検証する

「1ヶ月後のYouTubeはOpenClawが全て運用し『月1000万円』収益を上げるアカウントが大量発生する」——こんな投稿が X(旧 Twitter)で話題になっています。本当にそこまでできるのか、OpenClaw の技術的な能力と YouTube 運用の現実を照らし合わせて検証します。 元の主張の要約 X ユーザー @gagarot200 の投稿では、以下のような主張がなされています: 海外では既に 2000 万円を稼いでいるケースがある 勝負のポイントは編集技術ではなく「企画設計」「視聴維持率」「CTR改善」「投稿導線の最適化」 OpenClaw で競合分析→台本生成→素材選定→動画編集→サムネイル量産→投稿→数値分析を一気通貫で回せる 個人でもチーム運用レベルの全自動化が可能 OpenClaw とは OpenClaw は、GitHub で 34 万スター以上を獲得しているオープンソースの AI エージェントフレームワークです。ローカルマシン上で動作し、ブラウザ操作・ファイル読み書き・シェルコマンド実行・cron ジョブなどを自律的に実行できます。WhatsApp、Telegram、Slack、Discord など多数のメッセージングプラットフォームに対応しています。 技術的に「できること」と「できないこと」 OpenClaw で実現可能な部分 OpenClaw の Skills(プラグイン)機能とブラウザ自動化を組み合わせると、以下のタスクは技術的に実現可能です: タスク 実現方法 実用度 競合チャンネル分析 YouTube Data API + ブラウザスクレイピング ◎ 台本生成 LLM による構成生成 ◎ サムネイル量産 画像生成 AI + テンプレート自動適用 ○ 投稿スケジューリング YouTube Data API / ブラウザ自動化 ○ 数値分析・レポート YouTube Analytics API からのデータ取得・分析 ◎ CTR / 視聴維持率の改善提案 分析データを LLM にフィードバック ○ 現状では難しい部分 一方で、以下の部分には大きなハードルがあります: ...

2026年3月27日 · 2 分

1Password Unified Access:AIエージェント時代のシークレット管理が本格始動

Claude Code や Cursor で開発していると、.env に書いた API キーを AI が普通にファイルシステムから読みに行く。.gitignore していても関係ない。この課題に対して、1Password が Anthropic・Cursor・GitHub・Vercel・Perplexity と連携し「AI エージェント時代のシークレット管理」を本気で構築し始めた。 何が発表されたのか 2026年3月17日、1Password は 1Password Unified Access を発表した。人間・マシン・AI エージェントにまたがるアクセスを一元的に発見・保護・監査するためのプラットフォームだ。 従来のパスワードマネージャーの枠を超え、AI エージェントが本番環境で実際に動作する時代に合わせたクレデンシャル管理を提供する。 なぜ必要なのか:.env 問題 AI コーディングツール(Claude Code、Cursor など)は、タスク遂行のためにローカルファイルシステム上のファイルを読む。.env ファイルに平文で保存された API キーやトークンは、AI エージェントから直接アクセスできてしまう。 .gitignore はリポジトリへのコミットを防ぐだけで、ローカルファイルシステム上での読み取りは防げない。つまり、現状の .env ベースのシークレット管理は AI エージェント時代には不十分だ。 各社との連携内容 Anthropic(Claude Code / Cowork / ブラウザ拡張) Anthropic は 1Password を統合し、Claude Code、Cowork、Claude ブラウザ拡張からボールト内のアイテムを安全にオートフィルできるようにする。ユーザーの同意のもと、Claude がサイトやサービスに 1Password から直接クレデンシャルを取得してログインできる仕組みだ。 Cursor(Hooks による just-in-time シークレット) Cursor との連携では、Cursor Hooks を活用した just-in-time なシークレット提供を実現する。 仕組みは以下の通り: プロジェクトに hooks.json を設定 Cursor がシェルコマンドを実行する前に、1Password Environments Hook Script が起動 プロセスがアクセスを要求すると、1Password がユーザーに認証を求める 承認されると、必要なシークレットがランタイムセッションのメモリ上にのみ提供される これにより、平文キーがディスクやソースコードにコミットされることがなく、環境変数のハードコードやトークンの履歴残留も防げる。 ...

2026年3月17日 · 1 分

営業向けClaude Code活用術:/mtg-prepで商談準備が5分で終わる世界線

DAIJOBU CEO の山中裕貴(@0xfene)氏が、Claude Code のカスタムスキル機能を営業業務に活用し、商談準備を劇的に効率化した事例を紹介している。 従来の商談準備の課題 営業担当者の商談サイクルには、以下のような時間のかかるタスクが含まれる: 商談前: 30分〜1時間かけて Gmail・Slack・議事録ツールから過去のやり取りを手動で情報収集 商談中: 準備不足で焦ることがある 商談後: 15〜20分かけてフォローメールを作成 Claude Code スキルによる自動化 山中氏は Claude Code のスキル機能(.claude/skills/ 配下にプロンプトを定義する仕組み)を使い、営業ワークフロー全体を自動化した。 /mtg-prep — 商談準備の自動化 /mtg-prep コマンドを実行すると、複数の AI エージェントが並行稼働し、以下の情報を 2〜3分で収集・整理する: 過去のやり取り: Gmail、Slack、Circleback(AI 議事録サービス)から顧客との過去のコミュニケーションを取得 顧客調査: 企業情報、業界動向のリサーチ 競合調査: 競合他社の状況を自動調査 提案ドラフト: 確認事項、提案の方向性、想定質問、フォローアップのアクションプランを整理 結果はマークダウンファイルとしてローカルに保存される。 /follow-up — 商談後フォローの自動化 商談終了直後に /follow-up コマンドを実行すると、商談の内容を踏まえたフォローメールが 2〜3分で自動生成される。記憶が鮮明なうちに具体的な内容を含んだメールを送れるのがポイントだ。 /export-gdoc — ドキュメント共有 作成されたマークダウンファイルを Google ドキュメントに変換し、Notion スタイルの統一されたデザインで社内共有やクライアントへの提案に活用できる。 導入効果 山中氏によると、Claude Code 導入後は 体感で 3〜5倍の商談量を品質を下げずに捌ける ようになったという。 項目 導入前 導入後 商談準備 30分〜1時間 2〜3分(/mtg-prep) 商談中 準備不足で焦る場面も 相手の話に集中できる フォローメール 15〜20分 2〜3分(/follow-up) Claude Code スキルの仕組み Claude Code のスキル機能は、プロジェクトの .claude/skills/ ディレクトリにマークダウンファイルとしてプロンプトを定義する。/スキル名 でスラッシュコマンドとして呼び出せるため、営業担当者でも簡単に利用できる。 ...

2026年3月13日 · 1 分