米国市場の業種別リターンから翌日の日本市場を予測する — そんな論文の解説が X で話題になっていました。ポイントは「正則化 PCA(主成分分析)」によるノイズ除去です。本記事ではこの手法の仕組みと、なぜ通常の PCA より優れた結果を出せるのかを整理します。

基本アイデア:時差を利用した業種間伝播

米国市場が夜に動き、数時間後に日本市場が開く。同業種のリターンは国をまたいで伝播する傾向がある — この「時差」を収益機会として捉えるのが基本的な発想です。

具体的には、米国の 11 業種の当日リターンから、日本の 17 業種の翌日リターンを予測します。

データソース:日米の業種別 ETF

分析対象は 日米の業種別 ETF です。

  • 米国側: 業種 ETF の 当日 Close-to-Close リターン(終値ベース)を情報集合とする
  • 日本側: 業種 ETF の 翌営業日 Open-to-Close リターン(寄付→引け)を予測対象とする

米国市場の終値で確定した情報が、翌朝の日本市場の寄付きから日中にかけて反映される — この「リード・ラグ仮説」を ETF の日次リターンデータで検証する構成です。

データの入手方法

業種別 ETF の価格データは誰でも無料で入手できます。

米国の業種 ETF(SPDR Select Sector シリーズ)

XLK(テクノロジー)、XLF(金融)、XLE(エネルギー)など 11 セクターの ETF が上場しています。Yahoo Finance や Google Finance で日次データを取得可能です。

日本の業種 ETF(TOPIX-17 業種別シリーズ)

NEXT FUNDS TOPIX-17 シリーズ(野村アセットマネジメント)など、17 業種に対応する ETF があります。JPX(日本取引所グループ)や Yahoo!ファイナンスで取得できます。

Python での取得例

1
2
3
4
5
6
7
8
9
import yfinance as yf

# 米国: SPDR Select Sector ETF(11業種)
us_sectors = ["XLB", "XLC", "XLE", "XLF", "XLI", "XLK", "XLP", "XLRE", "XLU", "XLV", "XLY"]
us_data = yf.download(us_sectors, period="2y")

# 日本: TOPIX-17 業種別 ETF(例: 食品 1617, エネルギー資源 1618, ...)
jp_sectors = ["1617.T", "1618.T", "1619.T", "1620.T", "1621.T"]  # 一部抜粋
jp_data = yf.download(jp_sectors, period="2y")

このほか、J-Quants API(JPX 公式)でも日本株データを取得でき、個人利用は無料プランがあります。

なぜ PCA が必要か

11 × 17 = 187 の業種ペアの関係をそのまま推定しようとすると、データ不足でノイズまみれの推定になります。

そこで登場するのが PCA(主成分分析) です。多数の業種の値動きを、少数の共通パターン(主成分)に要約します。

米国 11 + 日本 17 = 28 業種が一見バラバラに動いているようでも、実際には少数の軸でかなり説明できます:

  1. 全体がリスクオン / オフか
  2. 米国優位か日本優位か
  3. 景気敏感 vs ディフェンシブのどちらが強いか

通常の PCA の弱点

サンプル数に対して変数が多い場合、相関行列の推定が不安定になり、抽出される因子もブレやすくなります。金融データは特にノイズが多く、この問題が顕著です。

部分空間正則化による改善

論文では 部分空間正則化 を導入して PCA を安定化させます。

  • 「データから見えた構造」だけでなく、「本来こういう構造のはず」という事前知識も混ぜる
  • 生データ 100% ではなく、事前知識を強めにブレンドしてノイズを抑える

これにより、限られたサンプル数でも安定した共通因子を抽出できるようになります。

予測からシグナルへ

抽出した共通因子に米国の当日リターンを入力すると、「今日はリスクオン寄り」「景気敏感優位」のようなスコアが算出されます。

このスコアを日本側にマッピングして、翌日の業種別シグナルを生成します。

  • 上位 30% の業種を買い
  • 下位 30% の業種を売り

結果

正則化 PCA は、通常の PCA や単純モメンタム戦略(過去のリターンがそのまま続くと仮定する手法)を大きく上回るパフォーマンスを示しました。

重要な示唆

この研究の面白い点は、エッジ(収益機会)自体は「業種間の伝播構造」にある一方で、勝負はその構造をいかに安定推定するかにあるということです。

「予測式を工夫する」よりも前に、何をどう圧縮して、どうノイズを殺すかが成果を左右する — データ前処理・次元削減の重要性を示す好例です。

参考