LLMで株式投資戦略を自動生成 — 松尾研のフィードバック設計実験が示す「モデル選択」の重要性
東京大学・松尾研究所の研究グループが、LLM(大規模言語モデル)に株式投資戦略を自動生成・改善させる実験を行い、その結果を人工知能学会 金融情報学研究会(SIG-FIN-036)で発表しました。8つの LLM と3種類のフィードバック条件を組み合わせた72パターンの実験から、「フィードバックの設計よりモデル選択のほうが戦略改善に大きく影響する」という知見が得られています。 研究の背景 LLM をクオンツ投資(数理モデルに基づく定量的投資手法)に活用する研究は近年急速に増えていますが、「LLM に過去の成績をどう伝えれば戦略をうまく改善できるか」というフィードバック設計の体系的な検証はほとんど行われていませんでした。本研究はこのギャップを埋めるものです。 実験フレームワーク 研究では、以下のような反復的な戦略改善ループを構築しています。 LLM に初期の投資戦略(Python コード)を生成させる 過去データでバックテスト(シミュレーション)を実行する シミュレーション結果をフィードバックとして LLM に提示する LLM が結果を分析し、戦略コードを修正する 2〜4 を繰り返して戦略を改善する 対象データ 銘柄: TOPIX 500(金融セクターを除く) 期間: 2014〜2022年の日次データ 特徴量: 株価、出来高、ファンダメンタル指標、マクロ指標など80種類 フィードバックの3条件 フィードバックに含める情報を2つの観点(情報の範囲と提示形式)で段階的に拡張し、3つの条件を比較しています。 条件 情報の範囲 提示形式 条件A 基本的な損益指標のみ テキストのみ 条件B 基本指標 + 予測精度・リスク構造の指標 テキストのみ 条件C 基本指標 + 予測精度・リスク構造の指標 テキスト + グラフ画像 使用モデル(8種・3ファミリー) GPT 系(OpenAI): GPT-5 を含む3モデル Gemini 系(Google): Gemini 3 Flash を含む2モデル Claude 系(Anthropic): Claude 4.5 Sonnet を含む3モデル 主要な結果: モデルごとの「性格」が成績を左右 実験の最大の発見は、フィードバック条件の違いよりもモデルの違いがパフォーマンスに大きく影響したことです。各モデルファミリーには明確な挙動の傾向が見られました。 Claude 系: 安定的・漸進的な改善 Claude 系モデル(特に Claude 4.5 Sonnet)は、既存の戦略コードの構造を保ちつつ局所的な修正を積み上げる傾向がありました。この「コツコツ型」のアプローチが安定的な改善につながり、最終的なパフォーマンスでも優れた結果を示しています。 ...