「統計学が最強の学問である」で学ぶ統計学で見える新しい世界

少しずつ統計学を勉強していく中で「統計学で学んだこと」を少しでも実践で生かせるようなマインドを養いたかったので、『統計学が最強の学問である』を読み始めました。

この記事ではこの本の中で特に参考になった点を中心にマトメていきます！

🗻 MicrosoftのBlogでアツい3つの専門性

* データマイニング、機械学習、人工知能、自然言語処理
* ビジネスインテリジェンス、競合分析
* 分析、統計、特にウェブ分析、A/Bテスト、統計解析

🐡 データをビジネスで使うための「3つの問い」

問1) 何かの要因が変化すれば利益が向上するのか？
問2) そうした変化を起こすような行動は実際に可能か？
問3) 変化を起こす行動が可能だとしてそのコストは利益を上回るのか？

🍣 データから適切な判断ポイントを見つけるために重要な点

1) 適切な比較を行うこと
2) ただの集計ではなくその誤差とp値について明らかにすること

🗽 統計学における「ランダム化」の可能性と課題

# ランダム化の利点
* 統計的な裏付けがないのに、「正しい」と決め付けるのは間違い
* 統計的な裏付けがないのに、「間違い」と決めつけるのも間違い
* 正解がないのであればとりあえずランダムに試すのにも価値がある

# ランダム化の欠点
絶対的なサンプル数の制限 => サンプル数が少なすぎると統計学は無意味
現実は条件を制御できない => 条件を満たすことが困難な場合統計学が脆い
倫理的な問題 => 有害性や不公平などの倫理も現実にはとても重要
不公平や劣等感が感情を逆なでする => 社会に対して不信感を与えない

🤔 回帰分析について

# 回帰分析とは？
データ間の関係性を記述する、もしくは一方のデータから他方のデータを予測する数式を推定

# 回帰分析で注意すべき点
ばらつきをもつ現象に対する理論的な予測はそれほどうまくいかない

# 統計学ができること
サンプルの統計量から、真値の信頼度を測る

# 重回帰分析とは？
予測したい結果に影響する要因が複数ある状況へ拡張された回帰分析

# 重回帰分析で注意すべき点
重回帰分析では、2つの説明変数を掛け合わせた新しい説明変数(相互作用項)にも注意が必要

# 回帰モデルの妥当性
=> AIC(赤池情報量基準)
=> 傾向スコア： 興味のある二値の説明変数についてどちらに該当するかという確率

🚕 統計学における6つの分野

1) 実態把握を行う社会学調査法
=> 可能な限り偏りを減らして、求める誤差に収まる推定値を効率よく算出する

2) 原因究明のための疫学・生物統計学
=> 原因を見つけることに重視。母集団への当てはまりにはこだわらない

3) 抽象的なものを測定する心理統計学
=> いくつかの測定方法から相関性を出して、数値化したのが知能指数(IQ)

4) 機械的分類のためのデータマイニング
=> マーケティングを目的にクラスタ分析や相関を調べる。ニューラル・ネットワークやサポートベクタマシンなどのような機械学習は、予測に役立つデータマイニングのための手法

5) 自然言語処理のためのテキストマイニング
=> 大量のテキストデータから目的にマッチしたデータを抽出・集計する。形態素解析として辞書を使うMeCabや辞書を使わずに重複する単語を探しだすN-Gramなどがある

6) 演繹に感心を寄せる数量経済学
=>経済学分野で統計学を用いる。相互作用を含む説明変数の選択について慎重な検討を行う

番外) 確率に対する考え方の違うベイズ派
=> 事前確率と事後確率を使う。限られた情報と仮定を組み合わせることで、迅速に答えを出す。

🐝 先人たちの知識をフル動員する

エビデンスが重要 : 統計的レビュー、メタアナリシス。Google Scholarなどで検索可能。この先人たちの知恵をフル動員することで、「最善」にコントロールすることが重要。

🎃 覚えておきたいキーワード

最小で十分なサンプル : 正しい判断に不必要な精度を求める必要はない
χ2乗検定 : 「意味のある偏り」、「誤差」のどちらかを確かめる手法
p値 : 誤差や偶然によってたまたま差が出る確率
真値 : 無制限にデータを集めればわかる本当に知りたい値
標準誤差 : 推定値の誤差の大きさ。

🖥 VULTRおすすめ

「VULTR」はVPSサーバのサービスです。日本にリージョンがあり、最安は512MBで2.5ドル/月($0.004/時間)で借りることができます。4GBメモリでも月20ドルです。最近はVULTRのヘビーユーザーになので、「ここ」から会員登録してもらえるとサービス開発が捗ります！

酒と泪とRubyとRailsと