AIによる株式投資3カ月で100万円上級【機械学習はビッグデータとどう違うのでしょうか?】

ビッグデータとは、従来の統計的手法では情報を抽出したりモデル化したりすることができないほど大規模で複雑なデータセットのことを指す。

すべてのデータのうち90%は過去2年間に作成されたと推定されており、その80%は非構造化データ(従来の統計的手法では対応できないデータ)であるといわれている。

近年、経済データの量と粒度は飛躍的に向上している。よいニュースは、行政、民間部門、マイクロレベルのデータセットが突然爆発的に増加し、経済の内部の仕組みについての比類のない洞察を提供してくれることである。

悪いニュースは、これらのデータセットが経済学の研究に複数の課題をもたらすことである。

(1)最も興味深いデータセットのなかには、構造化されていないものもある。ニュース記事、音声録音、衛星画像のように、数値でなくカテゴリカルでもないデータの場合もある。

(2)これらのデータは高次元である(例:クレジットカード取引)。関与する変数の数が観測値の数を大幅に超えることが多く、線形代数による解を適用することが非常に困難である。

(3)これらのデータの多くは、非常に疎(スパース)である。サンプルの大部分がゼロの場合があり、相関のような標準的な概念がうまく機能しない。

(4)これらのデータには、エージェントのネットワーク、インセンティブ、人々の集合行動に関する重要な情報が含まれている。
                      
機械学習技術はビッグデータの分析のために設計されており、そのためしばしば一緒に語られている。

資産運用業界はどのように機械学習を活用しているのでしょうか。

機械学習の最もポピュラーな利用法はおそらく価格予測であろう。

しかしほかにも、ヘッジ、ポートフォリオ構築、外れ値や構造的ブレークの検出、信用格付、センチメント分析、マーケットメイキング、ペットサイジング、銘柄分類など、重要な応用例は数多くある。価格予測への過度な期待と異なり、これらはより現実的な応用例である。

たとえば、ファクター投資会社は機械学習を使ってバリューファクターの再定義を行っている。数年前までは、株価収益率がよいバリュー指標となっていたが、現在ではそうではない。今日では、バリューの概念はよりニュアンスのあるものとなっている。

現代の資産運用会社は、バリューの特性を特定し、その特性がモメンタム、クオリティ、サイズ等とどのように相互作用しているかを特定するために機械学習を使用している。

メタラベリングもまた、資産運用会社がファクターペットのサイズとタイミングを決定するのに役立つホットなトピックの1つである。

高頻度取引会社は、インフォームド・トレーダーの痕跡を探すために、何年も前からリアルタイムの取引所フィートの分析に機械学習を利用してきた。

この情報を利用して短期的な価格予測を行ったり、注文執行の積極性や消極性を判断したりすることができる。

信用格付機関も機械学習を積極的に採用している。

機械学習アルゴリズムは、クレジットアナリストによって生成された格付を再現する能力を実証しているからである。

金融モデルは、少数の外れ値の存在にも非常に敏感に反応するため、外れ値の検出も重要な応用例の1つである。

また、売買の判断は従来のファンダメンタルズモデルに委ねつつ、機械学習モデルによってポジションの適切なサイズを見つけることで、投資パフォーマンスを向上させることも可能である。