アルゴリズム忘備録

競技プログラミングとかデータ分析とか

データ解析のための統計モデリング入門 レビュー

 

 

 いわゆる緑本。ずっと読みたかったんだけど最近品薄でどこにも売ってなくて(Amazonにはあったけど通販めんどいし…)探してたところ、ある駅ビルの本屋で発見。

 

データ分析はだいたい以下の手順ですることが多い。

  1. 課題の設定(課題を統計の概念で置き換える。回帰した結果の係数が正、など)
  2. データの前処理(いわゆるTidy Dataにすることが多い)
  3. モデルの作成(データの中から関係ありそうな項目を並べ線形モデルにするなど)
  4. モデルフィッティング(係数や統計量の計算)
  5. 元の課題の回答作成

よく機械学習なら分析を勝手にやってくれますよ!というのは3の半分と4を自動的にやってくれるというだけで実は一番たいへんな2や試行錯誤回数が滅茶苦茶多くなる3は殆どやってくれない。

 

そこで、そういった高度なアルゴリズムを使わない分析では大抵一般化線系混合モデルや階層ベイズといった枠組みでモデルを作成し、MCMCでモデルフィッティングを行うという手順が定石になっている。一般化線系混合モデルはどのデータをパラメータに使うのか、といった取捨選択は面倒なものの、数十次元ぐらいのデータであればそのぐらいは手動で頑張れるし、その後の手順がほぼ定石化されているのでとても楽である。

 

そういった統計的な方法でのデータ分析の流れを一冊でまとめたのがこの本。中身はある程度統計を知ってる人なら一気に読めちゃうぐらいの難易度なので、ある意味データ分析界のラノベという感じがした。

 

データ分析のもう一つの潮流として機械学習を使うケースも増えているようだけど、あれは例えば数千次元のデータを分析したいというケースにむいてるんじゃないかと思っていて、人間が見られるようなアドホックな分析ではこっちのほうが説明しやすいと思う。

 

最近仕事でやってるデータ分析は大体1週間程度で上の流れを回してレポートを出すことが多く、どっちかというと機械学習系の分析よりもこのような統計的な分析のほうがメインになっている。ちなみに本書ではMCMCを実行するツールとしてWinBugsをつかているのだけれど、ほぼディスコンになったツールなのでこれからはrstanを使うのを推奨したい。rstanの解説本はまた別に名著があるのでそれはそっちでご紹介予定。