OpenAI

LLMで株式投資戦略を自動生成 — 松尾研のフィードバック設計実験が示す「モデル選択」の重要性

東京大学・松尾研究所の研究グループが、LLM（大規模言語モデル）に株式投資戦略を自動生成・改善させる実験を行い、その結果を人工知能学会金融情報学研究会（SIG-FIN-036）で発表しました。8つの LLM と3種類のフィードバック条件を組み合わせた72パターンの実験から、「フィードバックの設計よりモデル選択のほうが戦略改善に大きく影響する」という知見が得られています。研究の背景 LLM をクオンツ投資（数理モデルに基づく定量的投資手法）に活用する研究は近年急速に増えていますが、「LLM に過去の成績をどう伝えれば戦略をうまく改善できるか」というフィードバック設計の体系的な検証はほとんど行われていませんでした。本研究はこのギャップを埋めるものです。実験フレームワーク研究では、以下のような反復的な戦略改善ループを構築しています。 LLM に初期の投資戦略（Python コード）を生成させる過去データでバックテスト（シミュレーション）を実行するシミュレーション結果をフィードバックとして LLM に提示する LLM が結果を分析し、戦略コードを修正する 2〜4 を繰り返して戦略を改善する対象データ銘柄: TOPIX 500（金融セクターを除く）期間: 2014〜2022年の日次データ特徴量: 株価、出来高、ファンダメンタル指標、マクロ指標など80種類フィードバックの3条件フィードバックに含める情報を2つの観点（情報の範囲と提示形式）で段階的に拡張し、3つの条件を比較しています。条件情報の範囲提示形式条件A 基本的な損益指標のみテキストのみ条件B 基本指標 + 予測精度・リスク構造の指標テキストのみ条件C 基本指標 + 予測精度・リスク構造の指標テキスト + グラフ画像使用モデル（8種・3ファミリー） GPT 系（OpenAI）: GPT-5 を含む3モデル Gemini 系（Google）: Gemini 3 Flash を含む2モデル Claude 系（Anthropic）: Claude 4.5 Sonnet を含む3モデル主要な結果: モデルごとの「性格」が成績を左右実験の最大の発見は、フィードバック条件の違いよりもモデルの違いがパフォーマンスに大きく影響したことです。各モデルファミリーには明確な挙動の傾向が見られました。 Claude 系: 安定的・漸進的な改善 Claude 系モデル（特に Claude 4.5 Sonnet）は、既存の戦略コードの構造を保ちつつ局所的な修正を積み上げる傾向がありました。この「コツコツ型」のアプローチが安定的な改善につながり、最終的なパフォーマンスでも優れた結果を示しています。 ...

ChatGPTのコード実行環境にDNSトンネリングによるデータ漏洩の脆弱性が発覚

Check Point Research が、ChatGPT のコード実行ランタイム（Python Data Analysis 環境）に隠れた外部通信チャネルが存在することを発見しました。この脆弱性を悪用すると、ユーザーの会話内容やアップロードしたファイルが外部サーバーに漏洩する可能性がありました。OpenAI は 2026年2月20日に修正を完了しています。脆弱性の概要 ChatGPT の Data Analysis 機能（旧 Code Interpreter）は、Python コードを実行するためのサンドボックス環境を提供しています。この環境は外部への直接的なネットワークアクセスを遮断するよう設計されていましたが、DNS 名前解決の機能は通常のオペレーションとして残されていました。攻撃者はこの DNS 解決機能を悪用し、DNS トンネリングと呼ばれる手法でデータを外部に送信することが可能でした。 DNS トンネリングの仕組み DNS トンネリングとは、DNS クエリのサブドメイン部分にデータをエンコードして埋め込み、DNS の名前解決プロセスを通じてデータを送信する手法です。 1 2 3 4 5 # 通常の DNS クエリ example.com → IPアドレスを返す # DNS トンネリング <エンコードされたデータ>.attacker-controlled.com → 攻撃者のDNSサーバーがデータを受信 ChatGPT のコード実行環境では、DNS 解決が正常なオペレーションの一部として許可されていたため、この通信は外部へのデータ転送として認識されず、ユーザーへの警告も表示されませんでした。攻撃シナリオ悪意のあるプロンプトインジェクション単一のプロンプトで隠れた漏洩チャネルを起動できます。「生産性向上ハック」や「プレミアム機能のアンロック」を謳う一見無害なプロンプトとして流通する可能性がありました。 ...

Prompt Engineering から Harness Engineering へ: AI エンジニアリングの進化と「仕組みの設計力」の時代

AI エンジニアリングの中心概念が急速に変化している。2022年の「Prompt Engineering」から2025年の「Context Engineering」を経て、2026年は「Harness Engineering」の年になった。Anthropic、OpenAI、そして Martin Fowler まで、業界のキープレイヤーが揃ってこの概念を公式に取り上げている。 3つの時代: プロンプトからハーネスへ Prompt Engineering（2022〜） ChatGPT の登場とともに広まった最初のパラダイム。LLM に対してどんな言葉で指示するかが品質を左右する、という考え方だ。Few-shot、Chain-of-Thought、Role Prompting といったテクニックが次々と開発された。焦点は「1回のリクエストにおける入力テキストの最適化」にあった。 Context Engineering（2025〜） 2025年中盤、Shopify CEO の Tobi Lutke が X への投稿をきっかけに「Context Engineering」という用語が急速に広まった。LangChain や Anthropic も相次いで解説記事を公開し、業界標準の概念として定着した。 Prompt Engineering が「何を言うか」に注目していたのに対し、Context Engineering は**「LLM に何を見せるか」を動的に制御するシステム**を設計する。RAG（Retrieval-Augmented Generation）、ツール呼び出し、メモリ管理など、LLM の入力コンテキスト全体をエンジニアリングの対象とする発想だ。 Harness Engineering（2026〜） 2026年に入り、AI エージェントの実用化が本格化するなかで、Context Engineering をさらに拡張した「Harness Engineering」が登場した。 Context Engineering が「LLM に何を見せるか」を扱うのに対し、Harness Engineering はエージェントの実行環境全体 —— 役割分担、フィードバックループ、品質検証、セッション管理まで含めた制御構造を設計する。「ハーネス（harness）」は馬具の意味で、強力な馬（= AI モデル）を制御し、安定した成果を引き出すための仕組み全体を指す。業界キープレイヤーの動き OpenAI: Codex チームの実践（2026年2月） OpenAI は2026年2月、公式ブログで「Harness engineering: leveraging Codex in an agent-first world」を公開した。 ...

insanely-fast-whisper: 150分の音声を98秒で文字起こしする CLI ツール

音声の文字起こし（トランスクリプション）は AI の実用的な応用の一つだが、長時間の音声ファイルを処理するには時間がかかる。insanely-fast-whisper は、OpenAI の Whisper モデルを Flash Attention 2 とバッチ処理で高速化し、150分の音声をわずか98秒で文字起こしできる CLI ツールだ。概要 insanely-fast-whisper は、Hugging Face の Transformers、Optimum、flash-attn を組み合わせた文字起こし CLI だ。2026年3月時点で GitHub スター 11,000 以上を獲得しており、コミュニティ主導で開発が進んでいる。主な特徴: 高速処理: Nvidia A100 GPU で 150分の音声を約98秒で文字起こし簡単なインストール: pipx install でワンコマンド導入複数モデル対応: Whisper large-v3、distil-whisper など Mac 対応: Apple Silicon (MPS) でも動作翻訳機能: 文字起こしだけでなく、英語への翻訳も可能ベンチマーク Nvidia A100 (80GB) での 150分音声の処理時間比較: 構成処理時間 large-v3 (fp32) 約31分 large-v3 (fp16 + batching + BetterTransformer) 約5分 large-v3 (fp16 + batching + Flash Attention 2) 約1分38秒 distil-large-v2 (fp16 + batching + BetterTransformer) 約3分16秒 distil-large-v2 (fp16 + batching + Flash Attention 2) 約1分18秒 large-v2 (Faster Whisper, fp16) 約9分23秒 Flash Attention 2 の効果が顕著で、BetterTransformer と比較しても約2.5〜3倍の高速化を実現している。 ...

autoresearch：Karpathyが公開した「寝ている間にAIが100実験を自律実行する」630行のスクリプト

OpenAI初期メンバーであるAndrej Karpathyが、autoresearchというオープンソースツールを公開しました。わずか630行のPythonスクリプトで、寝ている間にAIエージェントが約100の機械学習実験を自律的に実行してくれるというものです。 Karpathy「12月からコードを1行も書いていない」 Karpathyは「12月から自分でコードを1行も書いていない」と告白しています。代わりに公開したのがこのautoresearchで、プログラマーの仕事が「コードを書く」から「設計する」へとシフトしていることを象徴しています。 autoresearchの仕組み autoresearchはシンプルな仕組みで動作します: AIエージェントにトレーニングスクリプトと固定の計算バジェット（通常5分間のGPU時間）を渡すエージェントが自分のソースコードを読み、改善の仮説を立てるコードを修正し、実験を実行する結果が改善されたかを評価し、改善なら保持・悪化なら破棄するこのサイクルを繰り返すトレーニングは常に5分間で実行されるため、1時間あたり約12実験、一晩で約100実験が自動的に回ります。実績と反響 Shopify CEO Tobias Lütke: 一晩で37実験を実行し、性能19%向上を達成 Karpathy自身: 700以上の実験を2日間で実行（Fortune誌報道） GitHub: 公開1週間で数万スターを獲得（現在54,000以上）技術的特徴シングルGPU対応: 高価なクラスタは不要 630行のスクリプト: コードベースが小さく、理解・カスタマイズが容易 MITライセンス: 誰でも自由に利用可能 Python製: train.py を中心としたシンプルな構成リポジトリ GitHub: karpathy/autoresearch 「書く」から「設計する」への転換 autoresearchが示唆しているのは、世界最高峰のプログラマーの仕事が「AIにコードを書かせる」段階をすでに超え、AIエージェントに実験を設計・実行させるフェーズに入っているということです。Karpathyは将来的に、エージェント群が協調して小さなモデルをチューニングし、有望なアイデアを段階的にスケールアップさせる「研究コミュニティのエミュレーション」を構想しています。

ClawRouter — OpenClaw の API コストを最大92%削減するオープンソース LLM ルーター

OpenClaw を使っていて API コストが気になっていませんか？ ClawRouter は、リクエストごとに最安のモデルを自動選択してくれるオープンソースの LLM ルーターです。最大約92%のコスト削減が期待でき、しかも完全無料で利用できます。 ClawRouter とは ClawRouter は、OpenClaw 向けに設計されたエージェントネイティブな LLM ルーターです。MIT ライセンスで公開されており、誰でも無料で利用できます。主な特徴: 55以上のモデルに対応 — DeepSeek V3.2、Nemotron Ultra 253B、Mistral Large 3 675B、Llama 4 Maverick など 1ms 未満のルーティング — すべてローカルで処理されるため、レイテンシの追加はほぼゼロ 15次元のリクエスト分析 — 各リクエストを多次元で要素分解し、最適なモデルをスコアリング 11モデルが完全無料 — 簡単なクエリは無料モデルに自動ルーティングどれくらいコストが下がるのか ClawRouter の公式ベンチマークによると: 指標値 ClawRouter 平均コスト $2.05 / 100万トークン Claude Opus 直接利用 $25 / 100万トークン削減率約92% たとえば「2+2は？」のような簡単な質問は、DeepSeek などの無料モデルに自動ルーティングされます。一方、複雑な推論が必要なタスクにはプレミアムモデルが選択されるため、品質を犠牲にしません。仕組み ClawRouter は各リクエストに対して以下のプロセスを実行します: リクエスト分析 — 入力テキストを15次元で要素分解（タスクの複雑さ、必要な推論能力、言語、コンテキスト長など）スコアリング — 各モデルの能力とコストを総合的に評価ルーティング — 最もコスト効率の良いモデルを自動選択この全プロセスが 1ms 未満で完了します。 ...

Claude Code vs Codex：AI コーディングエージェント徹底比較 2026

AI コーディングエージェントの二大巨頭、Anthropic の Claude Code と OpenAI の Codex。どちらを使うべきか迷っている開発者は多いでしょう。Hesam 氏（@Hesamation）が数ヶ月間の実用比較を経て「Claude Code に戻った」という記事が話題になっています。本記事では、両ツールのベンチマーク・アーキテクチャ・実用上の使い分けを整理します。ベンチマーク比較 SWE-bench Pro（ソフトウェアエンジニアリングタスク）モデルスコア Claude Opus 4.6 59.0% GPT-5.3-Codex 56.8% 複雑なソフトウェアエンジニアリングタスクでは Claude Opus 4.6 がリードしています。 Terminal-Bench 2.0（ターミナル操作タスク）モデルスコア GPT-5.3-Codex 77.3% Claude Opus 4.6 65.4% 一方、CLI 操作や CI/CD 関連のタスクでは Codex が強さを発揮します。アーキテクチャの違いコンテキストウィンドウ Claude Code: 100万トークン（ベータ） Codex: 40万トークン Claude Code は 2.5 倍のコンテキストウィンドウを持ち、大規模なコードベースの横断的な分析に強みがあります。実行速度 Codex: Cerebras WSE-3 で 1,000+ トークン/秒 Claude Code: 約 200 トークン/秒（標準推論）速度面では Codex が圧倒的です。ただし、Claude Code はトークン消費量が 3.2〜4.2 倍多い傾向にあり、同じタスクでもより多くの推論を行っている可能性があります。 ...

OpenAI Codex の SubAgent（Swarm）が変える AI コーディングの未来

OpenAI Codex に搭載された SubAgent（サブエージェント）機能が話題になっています。複数の AI エージェントを並列で動かし、複雑なコーディングタスクを群（Swarm）として処理できるこの機能について、技術的な詳細をまとめます。 SubAgent とは何か Codex の SubAgent は、メインのエージェントが複数の専門化されたエージェントを並列でスポーン（生成）し、それぞれの結果を統合するワークフロー機能です。コードベース探索やマルチステップの機能実装など、並列処理が有効なタスクに特に威力を発揮します。特筆すべきは、サブエージェントからさらにサブエージェントを生成できる（ネスト可能な）点です。これにより、複雑なタスクを再帰的に分解して処理できます。ビルトインエージェント Codex には3つのビルトインエージェントが用意されています。エージェント役割 default 汎用フォールバック worker 実装・修正中心のタスク explorer コードベース探索中心のタスク主要な設定パラメータ 1 2 3 4 5 6 # ~/.codex/agents/ または .codex/agents/ に TOML 形式で配置 [agents] max_threads = 6 # 並行スレッド上限（デフォルト: 6） max_depth = 1 # ネスト深度上限（デフォルト: 1） job_max_runtime_seconds = 1800 # タイムアウト（デフォルト: 30分） max_depth を増やすことで、サブエージェントからさらにサブエージェントを生成する多段ネストが可能になります。 ...

VS Code AI コーディングアシスタントのインストール数推移：GitHub Copilot の急落と競合の台頭

VS Code マーケットプレイスにおける AI コーディングアシスタントの日次インストール数を示すグラフが話題になっている。GitHub Copilot のインストール数が急激に落ち込む「崖」が鮮明に表れており、SaaS 事業者やプロダクトマネージャーにとって示唆に富む内容だ。グラフが示すもの「Daily Install Counts of AI Coding Assistants in Visual Studio Code」と題されたグラフには、以下の 3 つの AI コーディングアシスタントの日次インストール数（30日移動平均）が描かれている。 GitHub Copilot（オレンジ）：2021年末から着実に成長し、2025年後半には日次 150,000 インストール近くまで到達。しかし 2026年に入って急落し、現在は 60,000 前後まで落ち込んでいる Claude Code（シアン）：2025年後半に登場し、直近で急速に伸長。日次 60,000 近くまで上昇 OpenAI Codex（イエロー）：同じく直近で伸びを見せているが、Claude Code よりやや控えめ注目すべきは、GitHub Copilot のインストール数がピークから半分以下に急落している点だ。この「崖」は、競合の台頭と GitHub Copilot 自体の変化の両方が要因と考えられる。急落の背景 GitHub Copilot の課金モデル変更 GitHub Copilot は 2024年12月に無料ティアを導入し、月 2,000 回のコード補完と 50 回のチャットリクエストという制限付きで提供を開始した。同時に、有料プランの価格体系も複雑化している。 Free：月 2,000 補完 / 50 チャット Pro：$10/月 Pro+：$39/月 Business：$19/ユーザー/月 Enterprise：$39/ユーザー/月無料ティアの導入は新規ユーザー獲得を狙った施策だが、既存の有料ユーザーが無料枠で十分と判断して解約するケースもあり得る。また、Microsoft は従来の IntelliCode を廃止し、AI 支援を Copilot に一本化する戦略を取っている。 ...

中国政府が OpenClaw に緊急セキュリティ警告：AI エージェントの安全な運用とは

オープンソースの AI エージェントフレームワーク「OpenClaw」の利用が中国国内で急拡大する中、中国の国家コンピュータネットワーク緊急対応技術チーム（CNCERT）が緊急のセキュリティ警告を発しました。政府機関や国有銀行での使用禁止にまで発展したこの問題について、技術的な背景と対策をまとめます。何が起きたのか 2026年3月、中国の CNCERT は OpenClaw について「極めて弱いデフォルトセキュリティ設定」を持つと警告を発しました。OpenClaw はローカルファイルシステムや環境変数へのアクセス、拡張機能のインストールなど高いシステム権限を付与されますが、デフォルトのセキュリティ設定が不十分であり、攻撃者がシステム全体の制御を容易に奪取できる状態であると指摘されています。この警告を受けて、中国当局は政府機関と国有企業（主要銀行を含む）に対し、業務用コンピュータへの OpenClaw のインストールを禁止する通知を出しました。既にインストール済みの職員には、上司への報告・セキュリティチェック・必要に応じた削除が指示されています。 CNCERT が指摘した主なリスク 1. アーキテクチャ設計上の問題 OpenClaw はローカルファイルシステム、環境変数、シェルへの広範なアクセス権限を持ちます。これ自体は AI エージェントの機能として必要ですが、適切な制限なしに運用すると重大なリスクとなります。 2. デフォルト設定の脆弱性管理 UI のデフォルトポートがインターネットに公開可能な状態環境変数に認証情報を平文で保存する設定がデフォルトスキルの自動更新が有効な状態がデフォルト 3. プラグインエコシステムの危険性不正なプラグイン（ポイズンドプラグイン）を通じて、ユーザーのシステムに悪意あるコードが侵入するリスクがあります。プラグインのアクセス権限が十分に制限されていないことが問題視されています。 4. Web ベースの攻撃悪意ある指示を Web ページに埋め込むことで、OpenClaw に不正な操作を実行させる攻撃（プロンプトインジェクション）が可能です。 5. 重要データの誤削除 AI エージェントの判断ミスにより、ユーザーが意図しない重要データの削除が発生するリスクも指摘されています。 CNCERT の推奨対策 CNCERT は以下の対策を推奨しています。コンテナで隔離実行する — OpenClaw をホストシステムから隔離された環境で動作させる管理ポートをインターネットに公開しない — 管理 UI へのアクセスをローカルネットワークに限定する認証情報を平文で環境変数に保存しない — シークレット管理ツールを使用するスキルの自動更新を無効にする — 更新は手動で検証してから適用する厳密な認証とアクセス制御を実装する — 不要な権限を排除するセキュリティアップデートへの追従を徹底する — 既知の脆弱性に速やかに対応する AI エージェント全般への教訓この問題は OpenClaw に限った話ではありません。AI エージェントは本質的に高いシステム権限を必要とするため、以下の原則はどのエージェントツールにも当てはまります。 ...