機械学習 | hdknr blog

機械学習で他社株TOBを予測し TOPIX を上回るリターン — Random Forest と SHAP 分析

企業の財務データや株主構成から「1年以内に他社株TOB（公開買い付け）の対象となる確率」を機械学習で予測し、その確率を使ったポートフォリオが TOPIX を上回るリターンを出せる——そんな研究結果が発表されました。久保正裕・梶並俊彦・鈴木智也（2026）による論文「機械学習による他社株TOBの予測可能性」（人工知能学会第二種研究会資料・金融情報学研究会、FIN-036 巻 41 号、p.257-263）の内容を紹介します。論文DOI: 10.11517/jsaisigtwo.2026.FIN-036_257 研究の概要 TOBが発生すると対象企業の株価にはプレミアムが上乗せされるため、投資家にとって非常に魅力的なイベントです。この研究では、東京証券取引所の上場全銘柄（データ取得期間：2011年1月〜2025年5月）を対象に、財務指標だけでなく「株主構成」に関する特徴量を加えて予測モデルを構築しました。分析1: 不均衡データへの徹底した前処理 TOBは上場企業全体から見ると年間数十件程度と非常にレアなイベントです。そのまま学習すると多数派（TOB非発生）のデータに過剰適合してしまいます。この問題を解決するため、複数ステップの前処理を実施しています。時系列分割: 予測対象年から過去5年間を学習データとして分割し、TOB発生メカニズムの時変性に対応 Random UnderSampling: 多数派を減らしてクラス比を調整 Tomek Links: クラス境界付近のノイズとなる多数派データを削除 SMOTENC: 少数派（TOB発生銘柄）の疑似データを生成し、機械学習による分類が容易な学習環境を整備分析2: 予測精度と決定要因（SHAP分析）再学習した Random Forest モデルは ROC-AUC で 0.60〜0.75 を達成しました（ランダム予測の AUC=0.50 を大きく上回り、十分な予測能力があることが確認されています）。 SHAP 分析によって TOB 予測に寄与する要因も明らかになっています。特徴量解釈筆頭株主の保有割合（最重要）親会社が子会社を完全子会社化する「親子上場の解消」などのケースを示唆個人保有比率（低いほどTOB対象になりやすい）個人投資家が多いと売却を促すためのプレミアムが高くなり、買収コストが嵩む時価総額（LnMV）・PBR・配当性向（低い企業）必要なコストが少ない点や非効率な投資への懸念（フリーキャッシュフロー仮説）から狙われやすい分析3: ポートフォリオ運用シミュレーションこの予測モデルの出力を実際の株式運用に応用した結果が特に注目されます。機械学習が算出した予測確率の**上位5%・15%・25%**の銘柄で等ウェイトのロングポートフォリオを構築し、年1回リバランスするシミュレーションを実施いずれのポートフォリオも TOPIX を上回るリターンを獲得上位5% > 上位15% > 上位25% の順でリターンが段階的に高くなる傾向を示し、予測確率の有用性が示された最も有益な発見: TOBが発生しなかった銘柄の動きこの研究の最も重要な発見は「実際にはTOBが発生しなかった銘柄」の動きです。 TOBが発生しなくても、予測確率が高い銘柄群は統計的に有意にプラスのリターンを生み出していましたこれは、市場の先行指標である株価が、TOBの発生可能性を先読みして価格上昇している可能性を示唆していますつまり、TOBが発生する・しないにかかわらず、「TOB予測確率」という指標自体がポートフォリオの銘柄選択において非常に有用であるという、実務的応用価値の高い性質を示す結論となっています。まとめ項目内容手法 Random Forest + 不均衡データ対策（RUS / Tomek Links / SMOTENC）データ東証上場全銘柄（2011年1月〜2025年5月）、財務指標＋株主構成予測精度 ROC-AUC 0.60〜0.75 最重要特徴量筆頭株主の保有割合運用結果上位5%・15%・25%いずれのポートフォリオも TOPIX をアウトパフォーム重要示唆 TOB未発生銘柄でも予測確率が高い銘柄群は統計的に有意なプラスリターン財務データと株主構成データを組み合わせたこのアプローチは、個人投資家にとっても参考になる視点を提供しています。「TOB予測確率」を独自に計算することは難しいですが、筆頭株主の保有割合や個人保有比率、PBR、時価総額といった公開情報を活用した銘柄スクリーニングは、誰でも実践できる投資戦略のヒントになりそうです。

DeNA+GOのAIコミュニティが4年間の社内勉強会資料120本超をSpeakerDeckで無料公開

DeNA+GO AI Community が、4年間の社内勉強会スライドを SpeakerDeck 上で全公開しています。社外秘を除く120本超の資料がクリック1つで無料で閲覧でき、AIエンジニアや研究者が実務で直面する課題への対処法を学べるとして注目を集めています。 DeNA+GO AI Community とは DeNA+GO AI Community は、DeNA株式会社とGO株式会社（タクシー配車アプリ「GO」）が共同で運営するAIコミュニティです。現場で活用できる AI 技術の情報共有を目的とした勉強会を継続的に開催してきました。その勉強会で使われた資料のうち社外秘に当たらないものはすべて SpeakerDeck で公開する方針を採っており、これまでに 120 本を超えるスライドが蓄積されています。公開スライドに含まれる AI 技術トピック一覧 4年間のアーカイブには多岐にわたるトピックが含まれています。 Kaggle コンペ振り返り — 実際に参加したコンペの知見や解法 Claude Code のログ活用方法 — LLM コーディングエージェントの実践的な使い方最新論文紹介 — CVPR・NeurIPS・ICLR などの主要カンファレンスの論文解説現場で使う AI 技術の動向調査 — 業務レベルで役立つ技術トレンドのサーベイ社内ツール開発の知見 — 実務で作った AI ツールの設計・実装ノウハウ SpeakerDeck での無料閲覧方法すべての資料は SpeakerDeck の公式アカウントから無料で閲覧できます。 SpeakerDeck: https://speakerdeck.com/dena_tech コミュニティページ: https://dena.ai/community/ 特定のテーマを探す場合は SpeakerDeck の検索機能か、コミュニティページのフィルタが便利です。実務 AI 資料として注目される3つの理由企業の社内勉強会資料は通常、外部には公開されません。DeNA+GO AI Community がこれだけの量を継続的に公開し続けていることには、複数の理由があります。実務レベルの知識 — 学術論文やチュートリアルとは異なり、「実際の業務でどう使ったか」という視点が多い最新性 — 定期的に更新されるため、直近のツールや手法が反映されている幅広さ — Kaggle・論文紹介・プロダクト開発と守備範囲が広い Claude Code のログをどう分析して開発サイクルに活かすか、といった題材はとくに現場エンジニアの関心が高い。実際に関連する X のポストは51万回以上表示されています。 ...

Googleが1000億の実データで学習した予測AI「TimesFM」をひっそり公開していた

Googleが時系列予測のための基盤モデル TimesFM（Time Series Foundation Model）をひっそりと公開していた。1000億以上の実データで学習済みで、自分のデータをファインチューニングすることなく（ゼロショットで）すぐに使える点が特徴だ。 TimesFM とは TimesFM は Google Research が開発した時系列予測に特化した基盤モデルだ。GPT-3 などの大規模言語モデルに着想を得たデコーダーのみのトランスフォーマーアーキテクチャを採用しており、テキストではなく「時系列データのパターン」を学習する。パラメータ数: 2億パラメータ（TimesFM 2.5 では最適化済み）アーキテクチャ: デコーダーのみのトランスフォーマーコンテキスト長: TimesFM 2.5 で 16,384 タイムポイント（8倍に拡張）何が予測できるのか TimesFM が得意とするユースケースは多岐にわたる。売上・需要予測: 小売の週次売上、在庫需要、サプライチェーン計画市場価格予測: 株式市場、コモディティ、仮想通貨の価格変動電力需要予測: 電力負荷、エネルギー価格、スマートグリッド最適化ユーザートラフィック予測: Web サイトのアクセス、API リクエスト量、サーバー負荷計画ゼロショットで使えるのが最大の強み従来の深層学習モデルは、予測したいデータセットに合わせて個別にトレーニングする必要があった。TimesFM はそれとは異なり、一切のファインチューニングなしに新しいデータセットに対して高精度な予測を実現する。公式の評価によると、ゼロショット状態の TimesFM は多くの個別学習済み深層学習モデルを上回るパフォーマンスを示している。学習データ TimesFM は以下のデータソースから 1000 億以上のデータポイントを使って学習されている。データソース内容 Wikipedia ページビュー 2012〜2023年の閲覧数時系列データ Google トレンド 22,000 件の検索関心度時系列データ（時間単位〜週単位）公開データセット M4、電力、トラフィックなどのベンチマークデータ合成データ ARMA 生成の 300 万件のシリーズ最新バージョンでは 4000 億以上の実世界タイムポイントで学習されているとも報告されている。使い方インストール 1 pip install timesfm Python での基本的な使い方 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 import timesfm # モデルの初期化（Hugging Face からダウンロード） tfm = timesfm.TimesFm( hparams=timesfm.TimesFmHparams( backend="pytorch", per_core_batch_size=32, horizon_len=128, ), checkpoint=timesfm.TimesFmCheckpoint( huggingface_repo_id="google/timesfm-2.5-200m-pytorch" ), ) # 配列から予測 forecast_array, _ = tfm.forecast( inputs=[context_time_series], freq=[0], # 0: 高頻度（日次以下）、1: 週次・月次、2: 四半期・年次 ) # DataFrame から予測 forecast_df = tfm.forecast_on_df( inputs=df, freq="D", # 日次 value_name="target", num_jobs=-1, ) Hugging Face モデル複数のバリアントが公開されている。 ...

TimesFM

概要 Google Research が開発した時系列予測専用の基盤モデル（Time Series Foundation Model）。デコーダーのみのトランスフォーマーアーキテクチャを採用し、1000億以上の実データで学習済み。自分のデータでファインチューニングすることなく（ゼロショットで）時系列予測が可能。 GitHub: google-research/timesfm Hugging Face: google/timesfm-2.5-200m-pytorch（最新推奨）パラメータ数: 2億（200M）ライセンス: Apache 2.0 主なユースケースユースケース説明売上・需要予測小売の週次売上、在庫需要、サプライチェーン計画市場価格予測株式・コモディティ・仮想通貨の価格変動電力需要予測電力負荷、エネルギー価格、スマートグリッド最適化トラフィック予測 Web サイトアクセス、API リクエスト量、サーバー負荷ゼロショット予測の強み従来の深層学習モデルはデータセットごとに個別学習が必要だったが、TimesFM はゼロショットで新しいデータセットに対して高精度な予測を実現。公式評価では多くの個別学習済み深層学習モデルを上回るパフォーマンスを示している。使い方 1 pip install timesfm 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 import timesfm tfm = timesfm.TimesFm( hparams=timesfm.TimesFmHparams( backend="pytorch", horizon_len=128, ), checkpoint=timesfm.TimesFmCheckpoint( huggingface_repo_id="google/timesfm-2.5-200m-pytorch" ), ) # 配列から予測 forecast, _ = tfm.forecast(inputs=[context_series], freq=[0]) # DataFrame から予測 forecast_df = tfm.forecast_on_df(inputs=df, freq="D", value_name="target") freq パラメータ: 0 = 高頻度（日次以下）、1 = 週次・月次、2 = 四半期・年次 ...

正則化PCAで米国→日本の業種モメンタムを捉える — 時差を利用したクロスマーケット戦略

米国市場の業種別リターンから翌日の日本市場を予測する — そんな論文の解説が X で話題になっていました。ポイントは「正則化 PCA（主成分分析）」によるノイズ除去です。本記事ではこの手法の仕組みと、なぜ通常の PCA より優れた結果を出せるのかを整理します。基本アイデア：時差を利用した業種間伝播米国市場が夜に動き、数時間後に日本市場が開く。同業種のリターンは国をまたいで伝播する傾向がある — この「時差」を収益機会として捉えるのが基本的な発想です。具体的には、米国の 11 業種の当日リターンから、日本の 17 業種の翌日リターンを予測します。データソース：日米の業種別 ETF 分析対象は日米の業種別 ETF です。米国側: 業種 ETF の当日 Close-to-Close リターン（終値ベース）を情報集合とする日本側: 業種 ETF の翌営業日 Open-to-Close リターン（寄付→引け）を予測対象とする米国市場の終値で確定した情報が、翌朝の日本市場の寄付きから日中にかけて反映される — この「リード・ラグ仮説」を ETF の日次リターンデータで検証する構成です。データの入手方法業種別 ETF の価格データは誰でも無料で入手できます。米国の業種 ETF（SPDR Select Sector シリーズ） XLK（テクノロジー）、XLF（金融）、XLE（エネルギー）など 11 セクターの ETF が上場しています。Yahoo Finance や Google Finance で日次データを取得可能です。日本の業種 ETF（TOPIX-17 業種別シリーズ） NEXT FUNDS TOPIX-17 シリーズ（野村アセットマネジメント）など、17 業種に対応する ETF があります。JPX（日本取引所グループ）や Yahoo!ファイナンスで取得できます。 ...

6ヶ月でAIエンジニアになるロードマップ — 無料リソースだけで学ぶ完全ガイド

この記事では、Python基礎からLLM/RAG開発、MLOpsまでを6ヶ月で学ぶロードマップを、すべて無料のリソースで紹介する。各月のゴールと具体的な教材リスト付き。 AIエンジニアの求人は前年比143%増加している。米国での平均年収は約17万5,000ドル。インドでは10件の求人に対して1人しか適格な候補者がいない状況だ。学位は不要。ブートキャンプも不要。必要なスキルを学ぶためのリソースはすべて無料で公開されている。この記事では、AI分野のコンテンツクリエイターであるNav Toor氏が提唱する6ヶ月のロードマップを紹介する。1ヶ月ずつ、6つのフェーズで構成されている。 Month 1: Python とプログラミング基礎すべてのAIフレームワーク、ライブラリ、ツールはPythonの上に構築されている。このステップを省略したり、急いで済ませたりしてはいけない。学ぶべき内容: 変数、関数、ループ、条件分岐、データ構造（リスト、辞書、セット）、オブジェクト指向プログラミング、ファイル操作、エラー処理、Git/GitHub の基本。リソース Python for Everybody（Dr. Chuck, ミシガン大学） — YouTubeとCourseraで無料公開。史上最も人気のあるPythonコース CS50P: Introduction to Programming with Python（Harvard, David Malan） — YouTube で無料。ハーバード品質、前提知識不要 Automate the Boring Stuff with Python（Al Sweigart） — オンラインで無料閲覧可能。初日から実践的なPython Git and GitHub for Beginners（freeCodeCamp） — YouTube で無料。1時間で必要な知識をカバーマイルストーン: CSVを読み込み、データを処理し、結果を出力するPythonスクリプトを書ける。GitHubアカウントに3つ以上のプロジェクトがプッシュされている。 Month 2: 数学と統計数学の学位は不要だ。モデルがなぜ動くのか、うまくいかないときにどう対処すべきかを理解できる程度の数学で十分だ。学ぶべき内容: 線形代数（ベクトル、行列、内積、固有値）、微積分（微分、勾配、連鎖律）、確率（ベイズの定理、分布）、統計（平均、分散、仮説検定、回帰）。リソース 3Blue1Brown: Essence of Linear Algebra — YouTube で無料。16本の動画。史上最高の数学ビジュアルコンテンツ 3Blue1Brown: Essence of Calculus — YouTube で無料。同じクオリティと明快さ Khan Academy: Statistics and Probability — 無料。包括的。自分のペースで学習可能 MIT 18.06: Linear Algebra（Gilbert Strang） — MIT OCW で無料。大学講義のゴールドスタンダード StatQuest with Josh Starmer — YouTube で無料。専門用語なしで統計を解説マイルストーン: 勾配降下法を直感的に理解できる。損失関数の役割と、行列乗算がニューラルネットワークで重要な理由を説明できる。 ...