AIによる株式投資3カ月で100万円上級【科学者は機械学習をどのように使っているか】

機械学習アルゴリズムは、人間によるガイダンスやモデル指定をほぽ必要とせず、高次元空間で複雑なパターンを学習することができる。

リサーチャーが機械学習のモデルを指定する必要がないために、機械学習はブラックボックスであるという誤った結淪が導かれてきた。

そのような考えのもとでは、機械学習は’il.なる「お告げ(Oracle) 3」であり、何の洞察も得られない予測機械にすぎない。

機械学習をブラックボックスとみなすのは誤解である。

機械学習のー一般的な産業応川においては、理論に基づいた理解の必要性よりも、よりよい予測の追求に、重きが置かれていることもその一因である。

ところが、科学における最近のブレイクスルーをみれば、科学における機械学習の利川法は次のように根本的に異なっていることが明らかになる。

存在の発見

実験科学だけではなくすべての科学分野において、機械学習は理論の妥当性を評価するために利用されている。

特に注目すべきは、機械学習アルゴリズムが数学的な発見に貢献してきたことである。

機械学習アルゴリズムは定理を証明することはできないが、未発見の定理(theorem)の存在を指摘することができ、それは予想(conjecture)とされ、後に証明(prove)されうる。言い換えれば、何かを予測することができれば、そのメカニズムを発見できる可能性があるということである(Gryak et al.、forthcoming)。

重要度分析

機械学習アルゴリズムによって、説明的・予測的な目的のための、説明変数(機械学習用語では特徴量)の相対的な情報量を決定することができる(Liu 2004)。

たとえば、平均正解率減少量(mean-decrease accuracy、MDA)法は以下のようなステップを踏む。

特定のデータセットで機械学習アルゴリズムを学習させる。(2)アウトオブサンプルで交差検証された正解率を求める。(3)個々の特徴量または特徴量の組合せの時系列をシャッフルした後に(2)のステップを繰り返す。

(4χ2)と(3)の間の正解率の減衰を計算する。重要な特徴量の時系列をシャッフルすると、精度が大きく低下する。このように、MDAは根本的なメカニズムを明らかにするものではないが、理論の構成要素となるべき変数を発見することができる。

因果関係

機械学習アルゴリズムによって、以下のステップで因果推論を評価することができる。(1)過去のデータを用い、効果がない場合の結果を予測するよう機械学習アルゴリズムをフィットさせる。

このモデルは理論的なものではなく、純粋にデータによるものである(お告げ(Oracle)のようなもの)。(2)効果の存在下での結果のオブザベーションを収集する。

(3X1)でフィットした機械学習アルゴリズムを用いて(2)で収集したオブザベーションを予測する。この際の予測誤差の大部分は効果に起因するものであり、因果関係の理論を提案することができる(Varian 2014 :A they 2015)。

還元主義的アプローチ

大規模で高次元で複雑なデータセットの叮視化には機械学習手法が不Ilf欠である。たとえば、manift Id learning (多様体学習)アルゴリズムは、多数の観測値を縮小されたピアグループのサブセットにクラスター化することができ、その差分特性を分析することができる(Schlecht et al. 2008)。

探索

機械学習は、ビッグデータをスキャンして人間が認識できなかったパターンを探すために使川される。たとえば毎晩、何百万枚もの画像が機械学習アルゴリズムに与えられ、超新星を探索している。

超新星を含む確率の高い画像を1枚見つけると、商価な望遠鏡を宇宙の特定の領域に向け、そこで人問がデータを精査することになる(Lochner e卜ll. 2016) 。

例は外れ偵検出である。外れ偵を見つけることは、説明の問題ではなく予測の問題である。

機械学習アルゴリズムは、その構造が説明されていなくても、データのなかで見つけた複雑な構造に基づいて、異常な観測値を検出することができる(Hodge and Austin 2004)。

機械学習は理論を置き換えるのではなく、科学者が豊富な実証的エビデンスに基づいて理論を形成するのを助けるという_収妛な役割を米たしている。

同様に、機械学習は経済学者が強力なデータサイエンスのツールを使って健全な理論を構築する機会をえてくれる。