統計学が最強、と言う人は頭を冷やしたほうがいいと思う。

 統計学が最強である、という趣旨の本が、数年前に話題になったようです。

 統計学が有用であることは十分に認めますが、最強を謳うのは少し違うんじゃないか、と思うので、それを書いていきたいと思います。

 ちなみに私は当該の本を読んでいませんので、そこはご了承ください。

 統計学は、何かと何かを比較するためにはものすごく優秀ですが、そこにおける「何かと何か」を見つけ出す手段ではありません。

 例えば、外車を持っている家族の子供は学力が高い、という相関があったとしましょう。実際のサンプルを用いても有意な相関が現れそうな気がしますが。(統計を知っている人にとっては擬似相関だよということです)

 この場合、家族の収入と外車の所有の有無に正の相関があり、また同様に家族の収入と子供の学力の間にも正の相関があることが容易に想像できます。

 そのため、「外車を持てば子供の学力が上がる」という結論にはならないということも容易に想像がつくでしょう。

 統計学はこの時、「外車所有の有無と子供の学力」、「家族の収入と子供の学力」の相関を導くことはできますが、ここで、「子供の学力にいちばん利いているのは家族の収入だよね」という洞察を導くことはできません。「何かと何か」を見つけ出す、というのはそういうことです。

 確かに、膨大なデータセットから一番利いているモデルを探す、という統計もありますが、本当に利いている変数はこれ、という仮説ないし洞察がないと無意味です。下記など参照ください。(無断転載させて頂きましたがよろしかったでしょうか?)

d.hatena.ne.jp

 そのような仮説や洞察を見つけ出すのが、科学者のキモであり、統計学はそれを補佐するあくまでツールでしかないので、最強にはなりえないというのが私なりの結論。

 ただ、世の中を見渡すと「外車を持てば学力が上がる」的な安易な結論を導く場合が多く、そういうときはちょっと待てよ、と思います。