AIによる株式投資3カ月で100万円上級【機械学習は、計量経済学の回帰分析とどう違うのでしょうか?】

伝統的な回帰分析は、変数の集合に対してあらかじめ定義された関数形をフィットさせる。

回帰は、その関数形と変数を結びつける相互作用について高い確信度をもっている場合には非常に有用である。

18世紀にさかのぽり、数学者は、データに対する一定の前提条件のもと、望ましい特性をもつ推定量を使用して、これらの関数形を適合させるツールを開発した。

1950年代に入ってから、研究者たちは、コンピュータの助けを借りて実証分析を行う別の方法があることに気づいた。

関数型を課すのではなく、特にその型が事前に不明な場合には、アルゴリズムがデータから変数の依存性を見つけ出すことを可能にしたのである。

また、データに強い仮定を置くのではなく、アルゴリズムがアウトオブサンプル予測の数学的特性を評価する実験を行う。

このように関数型とデータの仮定を緩和することと、強力なコンピュータの使用が相まって、高度に非線形、階層的かつ非連続的な相互作用を含む複雑なデータセットの分析への扉が開かれたのである。

次の例を考えてみよう。研究者がタイタニック号の乗客の生存確率を、性別、チケット等級、年齢などの変数に基づいて推定したいとする。

典型的な回帰アプローチは、性別、チケット等級、年齢を回帰変数として、1は生存者、Oは死亡者を意味する二値変数にロジットモデルを適合させるものである。

しかし、これらの回帰変数は正しいにもかかわらず、ロジット(またはプロピット)モデルはよい予測をすることができないことがわかった。

その理由は、ロジットモデルは、このデータセットが複雑な相互作用をもつ階層的な(ツリー状の)構造を内包していることを認識していないからである。

たとえば、2等チケットの成人男性は、この2つの属性を独立して検討した場合よりもはるかに高い割合で死亡している。

対照的に、単純な「分類木」アルゴリズムのほうがはるかによい結果が得られる。

これは、アルゴリズムがその階層構造(および関連する複雑な相互作用)を見つけてくれるからである。

階層構造は、経済学や金融の分野では遍在している(Simon 1962)。セクター分類、信用格付、資産クラス、経済的リンケージ、貿易ネットワーク、地域経済のクラスターなどであるoこのような問題に直面したとき、機械学習ツールは計量経済学や伝統的な統計手法の限界を補完し、克服することができる。