記事一覧 | hdknr blog

Claude Code vs Codex：AI コーディングエージェント徹底比較 2026

AI コーディングエージェントの二大巨頭、Anthropic の Claude Code と OpenAI の Codex。どちらを使うべきか迷っている開発者は多いでしょう。Hesam 氏（@Hesamation）が数ヶ月間の実用比較を経て「Claude Code に戻った」という記事が話題になっています。本記事では、両ツールのベンチマーク・アーキテクチャ・実用上の使い分けを整理します。ベンチマーク比較 SWE-bench Pro（ソフトウェアエンジニアリングタスク）モデルスコア Claude Opus 4.6 59.0% GPT-5.3-Codex 56.8% 複雑なソフトウェアエンジニアリングタスクでは Claude Opus 4.6 がリードしています。 Terminal-Bench 2.0（ターミナル操作タスク）モデルスコア GPT-5.3-Codex 77.3% Claude Opus 4.6 65.4% 一方、CLI 操作や CI/CD 関連のタスクでは Codex が強さを発揮します。アーキテクチャの違いコンテキストウィンドウ Claude Code: 100万トークン（ベータ） Codex: 40万トークン Claude Code は 2.5 倍のコンテキストウィンドウを持ち、大規模なコードベースの横断的な分析に強みがあります。実行速度 Codex: Cerebras WSE-3 で 1,000+ トークン/秒 Claude Code: 約 200 トークン/秒（標準推論）速度面では Codex が圧倒的です。ただし、Claude Code はトークン消費量が 3.2〜4.2 倍多い傾向にあり、同じタスクでもより多くの推論を行っている可能性があります。 ...

Claude Code vs OpenClaw — 「どっちを勉強すべき？」に対する責務ベースの選び方

AI コーディングエージェントの選択肢が増えるなか、「Claude Code と OpenClaw、どっちを勉強すべき？」という疑問を抱く人が増えている。AI駆動塾（@L_go_mrk）が両方を実際に触った上での比較記事を公開した。本記事では、この比較を起点に両ツールの位置づけを整理する。そもそも何が違うのか一言でまとめると、**Claude Code は「開発」、OpenClaw は「運用・自動化」**のためのツールだ。観点 Claude Code OpenClaw 開発元 Anthropic（プロプライエタリ） Peter Steinberger（オープンソース）主な用途コーディング、PR レビュー、リファクタリング日常タスク自動化、DevOps、定期ジョブインターフェースターミナル CLI メッセージングアプリ（Telegram, Discord, Signal 等）記憶セッションごとにリセット（CLAUDE.md で補完）永続メモリ（日記、TODO リスト、アイデンティティファイル）料金サブスクリプション（月額 $20〜）または API 従量課金無料（接続する LLM API の料金のみ） LLM Claude モデル固定 Claude, DeepSeek, GPT 等を選択可能セキュリティ Anthropic が管理、安全ガードレール付きユーザー管理、システム権限を継承 Claude Code が強い領域 Claude Code は SWE-bench で約 80.8% のスコアを達成しており、複雑なコード変更やリファクタリングにおいて高い精度を発揮する。Extended Thinking による段階的な推論が、大規模な変更を安全に実行する鍵になっている。強みをまとめると: コード品質: Hooks による PostToolUse リンター自動実行、プリコミットチェック PR ワークフロー: ブランチ作成→コミット→PR→レビューの一気通貫エンタープライズ対応: Team / Enterprise プラン、Code Review 機能安全性: 破壊的操作に対するガードレール OpenClaw が強い領域 OpenClaw（愛称 “Molty”）は、常駐型の AI エージェントだ。ターミナルで起動して終了する Claude Code と異なり、バックグラウンドで動き続け、cron ジョブやウェブフックでタスクを実行する。 ...

Claude Code のスキルを作るなら skill-creator プラグインを使おう

Anthropic が公開した「The Complete Guide to Building Skills for Claude」という 33 ページの PDF ガイドが話題になっています。このガイドをそのまま Claude Code のメモリに読み込ませてスキル構築に活用しようとする人もいますが、実は公式の skill-creator プラグインを使う方がはるかに効率的です。 skill-creator はガイドの内容をすべて反映しているだけでなく、テスト・最適化・トリガー精度改善といった仕組みも組み込まれています。PDF をメモリに入れるとコンテキストウィンドウを圧迫するリスクもあるため、新規スキル作成には skill-creator を導入するのがおすすめです。 Claude Code のスキルとはスキルとは、Claude に特定のタスクの実行方法を教える指示・スクリプト・リソースのフォルダです。SKILL.md ファイルに YAML フロントマターと指示を記述するだけで作成できます。 Claude Code は 3 段階の情報ロードシステム（Progressive Disclosure）を採用しています。起動時: インストール済みスキルの名前と説明文のみをシステムプロンプトに読み込む（スキルあたり約 50〜100 トークン）判定時: ユーザーの入力に関連するスキルがあるかを判定実行時: 該当スキルの全内容をロードこの仕組みにより、多数のスキルをインストールしてもコンテキストウィンドウを無駄に消費しません。 skill-creator プラグインのインストール skill-creator は Anthropic 公式マーケットプレイスに含まれています。Claude Code 内で以下のコマンドを実行するだけでインストールできます。 1 /plugin install skill-creator@claude-plugins-official インストール後、プラグインを有効化します。 1 /reload-plugins なお、/plugin コマンドで Discover タブを開き、GUI からインストールすることも可能です。プラグイン機能を利用するには Claude Code バージョン 1.0.33 以上が必要です（claude --version で確認できます）。 ...

CLAUDE.md の設定を99%消したら逆にうまくいった話：AI への指示は「哲学」だけ残せ

Claude Code の設定ファイル CLAUDE.md に「こう書け」「これは禁止」「この順番で処理しろ」とルールを追加していったら 300行を超え、AI の出力品質がどんどん落ちていった——そんな経験を経て「99%消した。残したのは、哲学だけ。」という結論に至った話が X で話題になっている。なぜルールを増やすと AI の性能が落ちるのかコンテキストウィンドウの競合 LLM はコンテキストウィンドウ内のすべての情報を処理する。CLAUDE.md のルールが増えるほど、実際の作業に使える「注意力」が奪われる。コンテキストが埋まるにつれてパフォーマンスが低下するのは、LLM の根本的な特性だ。指示の上限問題 IFScale ベンチマークの研究によると、フロンティアモデルは 150〜200個の指示を超えたあたりから選択的注意のバイアスがピークに達し、それ以降は均一に失敗するパターンに収束する。Claude Code のシステムプロンプト自体がすでに約50個の指示を含んでいるため、ユーザーが使える枠は実質100〜150個。200行の詳細なルールを書いた時点で、すでに予算オーバーだ。指示追従バイアス LLM はプロンプトの先頭と末尾の指示に従いやすい傾向がある。中間に埋もれたルールは見落とされがちだ。ルールが増えるほど、重要な指示が中間に埋もれて無視されるリスクが高まる。具体的に何が起こるか例えば「見出しは H2 を必ず4つ使え」「セクションは5つ構成にしろ」というルールを設定したとする。すると AI は、本来3セクションで十分な内容でも無理やり5セクションに引き伸ばし、冗長な文章を生成してしまう。ルールに従うこと自体が目的化し、最適な出力を考える余地がなくなる。これは人間の組織でも起こる現象だ。過剰なルールがかえって生産性を下げる。「哲学だけ残す」アプローチ細かいルールではなく方針を伝える悪い例: - 見出しは H2 を4つ使うこと - 各セクションは200〜300文字 - コードブロックには必ず言語指定をつけること - 箇条書きは最大5項目まで良い例: - 読者が最短で理解できる構成を優先する - 冗長さよりも明確さを重視する Anthropic 公式の推奨 Anthropic の公式ドキュメントでも、CLAUDE.md について以下のように推奨している: 肥大化した CLAUDE.md は、実際の指示を AI に無視させる原因になる Claude がすでに正しくやっていることについては、わざわざルールを書かない削除できるものは削除し、自動化できるものはフックに変換する Progressive Disclosure パターンすべての情報を CLAUDE.md に詰め込むのではなく、情報の見つけ方を教える方法が効果的だ。 ...

Figma プラグイン Image Translator：画像からテキストを抽出して多言語翻訳

海外サービスの UI を調査するとき、スクリーンショット内のテキストを手作業で翻訳するのは地味に手間がかかる。TSUMIKI INC. の鈴木慎吾氏（@shingo2000）が公開した Figma プラグイン Image Translator は、この作業を自動化してくれる。 Image Translator とは Image Translator は、Figma 上で選択した画像からテキストを自動抽出（OCR）し、指定した言語に翻訳する Figma プラグインだ。主な特徴：画像からのテキスト自動抽出 — スクリーンショットや UI キャプチャからテキストを認識多言語翻訳 — 英語、日本語、中国語、スペイン語、韓国語、ポルトガル語などに対応 2つの表示モード — Figma のアノテーション機能で表示するモードと、テキストレイヤーとして配置するモードを選択可能使い方 Figma で翻訳したい画像を選択するプラグインメニューから Image Translator を起動する翻訳先の言語を選択する抽出・翻訳されたテキストがアノテーションまたはテキストレイヤーとして表示される活用シーン海外サービスのデザイン調査競合分析や UI リサーチで海外アプリのスクリーンショットを収集した際、画面内のテキストを素早く日本語で確認できる。翻訳結果がアノテーションとして画像に紐づくため、チームメンバーとの共有にも便利だ。多言語対応の確認自社サービスの多言語版スクリーンショットを取り込み、各言語のテキストが正しく表示されているか確認する用途にも使える。まとめ Image Translator は、デザイン調査における画像内テキストの翻訳という地味だが頻出する作業を自動化してくれるプラグインだ。海外サービスの UI を日常的に調査しているデザイナーにとって、ワークフローの効率化に役立つだろう。 Figma Community: Image Translator 作者: 鈴木慎吾 / TSUMIKI INC.

GitHub で見つけた「便利ツール」を解析したらマルウェアだった話：偽 OpenClaw インストーラーの実態

GitHub 上で OpenClaw の便利ツールを装った不審なリポジトリが発見され、実際に解析したところマルウェア（シェルコードローダー）であることが判明した。ひよっこサウナ氏（@hiyoko_sauna）による詳細な解析レポートを基に、この攻撃手法の全体像を紹介する。対象リポジトリの特徴 github.com/sdwadsagw/OpenClawInstaller という、「Open Claw を簡単にインストールできるツール」として公開されていたリポジトリが対象だ。項目値アカウント作成日 2026-02-11（リポジトリと同日作成） Star / Fork 2 / 0 説明文「AI assistant for Open Claw」使い捨てアカウント（リポジトリと同日作成）という時点で怪しさ満点だ。 ZIP の中身 Claw-Installer-Open-2.8-alpha.3.zip を展開すると 4 ファイルが入っていた。ファイルサイズ VT 検出率説明 StartApp.bat 22 bytes - start luau.exe asm.txt を実行するだけ luau.exe 288,768 bytes 25/76 LuaJIT 2.1.0-beta3（正規バイナリ） lua51.dll 390,144 bytes 1/75 LuaJIT 用ランタイム DLL asm.txt 309,298 bytes 0/76 難読化された Lua スクリプト注目すべきは asm.txt の検出率が 0/76 という点だ。悪意のあるコードは asm.txt に書かれているのに検出されず、無害な luau.exe の方が検出されるという逆転現象が起きている。 ...

Google Gemini Embedding 2：テキスト・画像・動画・音声を統一ベクトル空間に埋め込むマルチモーダル埋め込みモデル

Google が 2026年3月に公開した Gemini Embedding 2 は、テキスト・画像・動画・音声・ドキュメントを同一のベクトル空間に埋め込める、初のネイティブマルチモーダル埋め込みモデルだ。RAG パイプラインやマルチモーダル検索を構築する開発者にとって注目すべきモデルとなっている。主な特徴ネイティブマルチモーダル対応従来の埋め込みモデルはテキスト専用か、別モデルで画像を処理する必要があった。Gemini Embedding 2 は全モダリティを 3072次元の統一ベクトル空間に直接埋め込む。これにより、テキストで検索して関連する画像や動画を取得するといったクロスモーダル検索が自然に実現できる。対応モダリティと制限: モダリティ制限テキスト最大 8,192 トークン画像 1リクエストあたり最大 6枚（PNG, JPEG）動画最大 120秒（MP4, MOV）音声ネイティブ対応（テキスト変換不要）インターリーブ入力にも対応しており、1つのリクエストに画像とテキストを混在させて渡すことができる。 Matryoshka 表現学習（MRL） Matryoshka Representation Learning（マトリョーシカ表現学習）により、重要な意味情報がベクトルの先頭次元に集約される設計になっている。デフォルトの 3,072次元から 1,536 や 768次元に切り詰めても、検索品質の大部分を維持できる。 Google の推奨次元数: 3,072次元：最高品質 1,536次元：高品質（コスト削減向け） 768次元：バランスの良い推奨値 768次元に切り詰めた場合でも、同サイズの固定次元モデルを上回る性能を発揮するとされている。多言語対応と性能 100以上の言語をサポート MTEB 多言語リーダーボードで 69.9 を記録しトップランク MTEB コード検索でも 84.0 と高スコア料金プラン料金リアルタイム API $0.20 / 100万トークンバッチ API $0.10 / 100万トークン（50% OFF） OpenAI の text-embedding-3-small（$0.02/100万トークン）と比較すると高価だが、マルチモーダル対応を単一モデルで実現している点が差別化要因となる。 ...

Kali Linux × Ollama × MCP — 完全ローカルで動く AI ペンテスト環境の構築

Kali Linux チームが、外部 SaaS に一切依存しない完全ローカルの AI ペンテスト支援環境の構築ガイドを公式ブログで公開した。Ollama でローカル LLM を動かし、MCP（Model Context Protocol）経由で nmap などの Kali ツールを自然言語から操作する構成だ。構成要素コンポーネント役割アーキテクチャ上の位置づけ Ollama ローカル LLM サーバー。llama.cpp のラッパーとしてモデルのダウンロード・サービングを簡素化推論エンジン（脳） mcp-kali-server Flask ベースの MCP サーバー（127.0.0.1:5000）。nmap, gobuster, nikto, hydra, sqlmap 等の Kali ツールを MCP 経由で公開ツールサーバー（手足） 5ire デスクトップ AI アシスタント兼 MCP クライアント。ユーザー入力を LLM に送り、LLM の応答からツール呼び出しを検出し、MCP 経由でツールを実行し、結果を LLM に戻すループを回す AI エージェント（オーケストレーター）この構成で「エージェント」に相当するのは 5ire だ。LLM（Ollama）は推論を担うだけであり、ツールサーバー（mcp-kali-server）は呼ばれるのを待つだけ。ユーザーの意図を解釈し、LLM とツールの間を仲介して自律的にループを回す 5ire こそがエージェントの役割を果たしている。Claude Code に例えると、Ollama は API の向こう側の Claude モデル、mcp-kali-server は MCP サーバー、5ire は Claude Code 本体に相当する。 ...

OpenAI Codex の SubAgent（Swarm）が変える AI コーディングの未来

OpenAI Codex に搭載された SubAgent（サブエージェント）機能が話題になっています。複数の AI エージェントを並列で動かし、複雑なコーディングタスクを群（Swarm）として処理できるこの機能について、技術的な詳細をまとめます。 SubAgent とは何か Codex の SubAgent は、メインのエージェントが複数の専門化されたエージェントを並列でスポーン（生成）し、それぞれの結果を統合するワークフロー機能です。コードベース探索やマルチステップの機能実装など、並列処理が有効なタスクに特に威力を発揮します。特筆すべきは、サブエージェントからさらにサブエージェントを生成できる（ネスト可能な）点です。これにより、複雑なタスクを再帰的に分解して処理できます。ビルトインエージェント Codex には3つのビルトインエージェントが用意されています。エージェント役割 default 汎用フォールバック worker 実装・修正中心のタスク explorer コードベース探索中心のタスク主要な設定パラメータ 1 2 3 4 5 6 # ~/.codex/agents/ または .codex/agents/ に TOML 形式で配置 [agents] max_threads = 6 # 並行スレッド上限（デフォルト: 6） max_depth = 1 # ネスト深度上限（デフォルト: 1） job_max_runtime_seconds = 1800 # タイムアウト（デフォルト: 30分） max_depth を増やすことで、サブエージェントからさらにサブエージェントを生成する多段ネストが可能になります。 ...

OpenClaw エージェントでトレーディング戦略を自動バックテスト

OpenClaw エージェントを使って、TradingView の指標を自動スクレイピングし、Pine Script から Python に変換してバックテストまで全自動で実行する手法が話題になっています。 OpenClaw とは OpenClaw は、オーストリアの開発者 Peter Steinberger 氏が 2025 年 11 月に Claude を使って構築したオープンソースの AI エージェントです。ローカルマシン上で動作し、自然言語の指示を受けてタスクを自律的に実行します。GitHub で 32 万以上のスターを獲得しており、2026 年初頭にはユーザー数が 200 万人を超えるなど急成長しています。主な特徴: マルチプラットフォーム対応: Mac / Windows / Linux で動作メッセージ連携: WhatsApp、Telegram、Slack、Discord など複数チャネルに対応スキルシステム: モジュラーなプラグイン（スキル）で機能を拡張可能永続メモリ: コンテキストを記憶して継続的に動作トレーディング戦略の自動バックテスト今回話題になっているのは、OpenClaw エージェントを使ったトレーディング戦略の自動バックテストです。処理の流れ TradingView 指標の自動スクレイピング: TradingView から 50 以上のテクニカル指標を自動収集 Pine Script → Python 変換: TradingView 独自の Pine Script で書かれた指標を Python コードに自動変換バックテスト実行: 変換した戦略を過去データで自動検証結果のフィルタリング: 失敗した戦略を自動除外し、勝ちパターンを抽出 GitHub へのログ: テスト結果を自動で GitHub リポジトリに記録設定を済ませれば、コードを一切書かずにこの一連のプロセスが自動で回り続けます。 ...