AIによる株式投資3カ月で100万円上級【機械学習手法】

理論を構築するための最初のステップは、変数同士がどのように相互関連しているかを示すデータを収集することである。

金融においては、こうしたデータは共分散行列のかたちをとることが多い。

共分散行列を使って、回帰分析、ポートフォリオ最適化、リスク管理、連結性の探索などを行うことができる。

しかし、金融における共分散行列はノイズが多いことが知られている。

共分散行列が含む情報のうちシグナルは比較的小さな割合にすぎず、またそれは裁定取引の力によって常に抑制されている。

共分散行列に含まれるわずかなシグナルを放棄することなく、ノイズを除去する手法を解説する。

議論の多くはランダム行列理論に関連するが、解決法の中心は機械学習の手法であるカーネル密度推定器(KDE)である。

リサーチ課題の多くは、類似性や距離の概念を含む。たとえば、2つの変数がどれだけ密接に関連しているかを理解することに興味があるかもしれない。

線形関係から距離測度を導出する際には、ノイズを除去した共分散行列が非常に役に立つ。

非線形関係をモデル化する際には、より高度な概念が必要となる。

ノイズの多いデータから複雑なシグナルを抽出するための情報理論に基づくフレームワークを提供する。

これによって、測度空間を特徴づける潜在変数におく仮定を最小限にして距離測度を定義することができる。

これらの距離測度は、相関の概念を非線形に一般化したものと考えることができる。

距離行列の活用法の1つは、いくつかの変数同士がほかよりも密接に関連している、

つまりクラスターを形成しているかどうかを調べることである。

クラスタリングは、資産クラス分類、ポートフォリオ構築、次元削減、エージェントのネットワークのモデリングなど、金融分野で幅広く応用されている。

クラスタリングにおける一般的な問題は、最適なクラスター数を求めることである。

この問題の一般的な解を提供するONCアルゴリズムを紹介する。

このアルゴリズムのさまざまなユースケースは本書全体で提示する。

クラスタリングは教師なし学習問題である。教師あり学習問題を掘り下げるには、金融データのラベリング方法を検討する必要がある。

教師あり機械学習アルゴリズムの有効性は、われわれが解決しようとする問題の種類に大きく依存する。

たとえば、明日のS&P500のリターンを予測することは、S&P500の次の5%の変化の符号を予測するよりもおそらく困難である。

ラベルづけのタイプごとに、適する特徴量は異なる。リサーチャーは、データにどのようなラベルづけ方法を適用するかを慎重に検討する必要がある。

さまざまな選択肢のメリットについて議論する。

前著AFMLでは「バックテストはリサーチツールではない。

特徴量の重要度こそがリサーチツールなのである」と読者に警告した。

バックテストは経済理論や金融理論の開発には役立たない。

理論の開発のためには、ある現象にどのような変数が関与しているのかをより深く理解する必要がある。

説明変数の岷妛度を評価するための機械学習手法を解説し、こうした手法がどのように古典的手法の多くの欠点(たとえばp値)を打ち破るかを説明する。

特に問題となるのは、多重共線性のもとでのp仙のロバスト性の欠如をどうやって克服するかである。

この問題に取り細むために、ノイズ除去、距離測定法、クラスタリング、ラベリングとすべての先行する章で学んだことを適用する。

金融理論を構築したら、その発見をもとに投資戦略を策定し投資を実行できる。

その戦略を設計するためには、不確実性のもとでの投資判断が必要になる。

その手法としては平均分散ポートフォリオ最適化が知られており、不安定さで悪名高いものの、広く使川されている。

これまでこの不安定性は、強い制約条件の導入、事前分布の追加、共分散行列のシュリンケージ、その他のロバストな最適化手法など、多くの方法で対処されてきた。

多くのアセットマネージャーは、共分散行列のノイズによって引き起こされる不安定性について理解している。

しかし、ある種のデータ構造(シグナルの種類)も均分散最適化解の不安定性の原因になることを理解しているアセットマネージャーは少ないのが現状である。

なぜシグナルが不安定性の原囚となりうるのか、そして機械学習手法によってどのように修正可能かを説明する。

ファイナンス機械学習の書籍は、テストデータのオーバーフィッティングの結米として発見が偽である確率をどのように評価するかについての詳細な説明がなければ完結しない。

バックテストのオーバーフィッティングの危険性を説明し、複数のテスト下での選択バイアスの問題に対するいくつかの実川的な解決策を提供する。