AIによる株式投資3カ月で100万円上級【ファイナンス機械学習に関する5つの誤解】

ファイナンス機械学習は新しいテクノロジーである。

新しいテクノロジーにはよくあることだが、多くの誤解が生まれている。

以ドにそのなかでも最もよくあるものを紹介する。

機械学習は見果てぬ夢VS機械学習は役に立たない

機械学習を取り巻く誇大広旨と反誇大広告の量は、常軌を逸している。

誇大広告は、近い将来には実現しないかもしれない期待感を生み出す。

反誇人広告は、機械学習は何も特別なものではなく、機械学習愛好家が主張するような成果はすでに古典的な統計手法によって得られているということを聴衆に納得させようとしている。

機械学習を批判する向きは「線形回帰の欠点Xは人したことではない」と主張することがある。

この場合のXはモデル仕様の誤り、多重共線性、回帰子の欠藩、非線形相互作用効米などを意味する。

実際には、これらの古典的仮定の違反は、情報のない変数を受け入れる(偽陽性)および/または情報のある変数を拒否する(偽陰性)ことにつながる。

もう1つのよくある誤りは、中心極限定理が、線形回帰モデルの使用をどこでもなんらかのかたちで正当化すると考えることである。

主張は次のようなものである:十分な標本があれば、正規性を仮定でき、線形モデルは漸近的な相関構造への良好な適合を提供する。

この“CLT(中心極限定理)万歳”は、大学学部レベルのファンタジーである。

つまり、標本平均はガウス分布に収束するが、標本自体は収束しないのである。

そしてその収束が起こるのは、標本が独立同分布(independent and identically distributed)している場合のみである。

数千、数億の標本を与えたとしても、仕様が間違っていれば回帰がよい結果を出さないことは、数行のコードで実証できる。

両者(誇大広告と反誇大広告)ともに、機械学習が今日もたらしている真の差別化された価値を投資家が認識することを妨げている。

機械学習は最先端の統計学であり、何十年にもわたって資産運用者を悩ませてきた古典的な手法の欠点の多くを克服するのに役立つ。

金融分野においても機械学習の応用例がある:、Lopez de Prado (2019c)。

機械学習はブラックボックスである

これは、おそらく機械学習にまつわる誤解のなかで最も広まっているものである。

世界中のどの研究室でもある程度機械学習を使っており、明らかに機械学習は科学的手法と互換性がある。

機械学習はブラックボックスではないどころか、従来の統計的手法(計量経済学を含む)よりも機械学習に基づいた研究ツールのほうがより深い洞察を得ることができる。

機械学習モデルは、PDP、ICE、ALE、フリードマンのH-stat、MDI、MDA、グローバルサロゲート、LIME、シャプレイ値など、多くの手続によって解釈することができる。

機械学習の解釈可能性については、Molnar (2019)を参照されたい。

機械学習をブラックボックスとして利用するか、ホワイトボックスとして利用するかは個人の選択の問題である。

他の技術的なテーマでも同じことがいえる。

個人的には自分の車がどのように動くのかにはあまり関心がないし、正直にいうとボンネットを開けてエンジンを覗き見したこともない
(興味は数学にあって、メカニックにはない)。

だから、ブラックボックスのままなのである。

自分に好奇心がないからといって、車を設計したエンジニアを責めるつもりはない。

またガレージで働くメカニックたちが車をホワイトボックスとしてみていることも承知している。

同様に、機械学習がブラックボックスであるという主張は、ある人々がどのように機械学習を利用することを選択してきたかを明らかにするものであり、普遍的な真理ではないのである。

ファイナンスのデータ量は機械学習には足りない

特に価格予測においては、大量のデータを必要とする機械学習アルゴリズムがあるのは事実である。

したがって、タスクに適したアルゴリズムを選択する必要がある。

一方、このような主張をする機械学習批判家は、ファイナンス機械学習のアプリケーションの多くが過去のデータをまったく必要とし
ないことを無視しているようだ。

例としては、リスク分析、ポートフォリオ構築、外れ値検出、特徴量の重要度、ペットサイジングなどがあげられる。

過去のデータに依存することなく機械学習の数学的性質を示している。

モンテカルロ実験を用いて機械学習ベースのポートフォリオ構築アルゴリズムの精度を評価する。

何百万回ものモンテカルロシミュレーションから導き出された結論は、このアプローチの一般的な数学的性質について示唆を与えてくれる。

一握りのヒストリカルシミュレーションから得られる逸話的な証拠は、広範囲のシナリオに対する評価にはかなわないのである。

センチメント分析、ディープヘッジ、信用格付、執行、商業データセットのようなファイナンス機械学習アプリケーションでは、豊富なデータを享受することができる。

またある状況下では、研究者は自分自身のデータを生成し、正確な因果関係のメカニズムを確立することができるランダム化対照実験を行うことができる。

たとえば、ニュース記事をリワード(reword、言い換え)することにより、さまざまな変化をコントロールしつつ、機械学習のセンチメント抽出と人間による結論を比較することができる。

同様に、執行アルゴリズムの異なる実装に対する市場の反応を、|司等の条件下で実験することもできる。

ファイナンスではS/N比(信号対雑音比)が低すぎる

金融データは、他の機械学習アプリケーションで使われているデータに比べ、S/N比が低いことは間違いない(第2章で実証する)。

金融ではS/N比が低いため、データだけに基づくブラックボックス予測に幀ることはできない。

しかし、これはファイナンスでは機械学習は使えないということを憲味しない。

これは機械学習の使い方を変えなければならないということを憲味しており、だからこそファイナンス機械学習は別個の学問分野なのである。

ファイナンス機械学習は、標準的な機械学習手法を金融データセットに単に適川したものではない。

計量経済学が標準的な統計手法を単に経済データに適川したものではないのと同じように、ファイナンス機械学習は金融リサーチャーが直而する特定の課題に対処するために特別に設計された機械学習手法であるといえる。

ファイナンス機械学習の目的は、新しい経済理論の発見を支援することにある。

機械学習アルゴリズムではなく、そのようにして発見された理論が、予測を生み出すことになる。

これは、科学者があらゆる研究分野で機械学習を利川しているのとなんら変わらない。

金融ではオーバーフィットのリスクが高すぎる

知識のある使い予のもとでは、機械学習アルゴリズムは古典的な手法に比べてオーバーフィットが少ないのである。

しかし、不注意な素人が使った場合、機械学習アルゴリズムは有害無益となるであろう。