読者です 読者をやめる 読者になる 読者になる

Machine Learning: A Probabilistic Perspective: ノート3

本読み 機械学習

読んでいる本(出典):Amazon.co.jp: Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series): Kevin P. Murphy: 洋書

前回:ノート2 / 次回:ノート4
目次:Machine Learning: A Probabilistic Perspective

今日読んだページ: 27~38ページ
以下、自分の解釈・感想。

  • 2章は確率の話。「さっきの章で、機械学習において確率がいかに重要な役割を担うかみた(27ページ)」というのを自分なりにふりかえると、
    • 教師なし学習では、確率を出力することこそがゴール(Ex. この手描き数字は "5" です、ではなくて、この手描き数字は60%の確率で "5" です、をつくる方が実用的)。
    • 教師あり学習では、尤もらしいグループ分けや、ファクターや、"同時に起こること" を見出すことがゴール(Ex. いまスーパーで買い物カゴにパンを入れているお客様がいて、このお客様の過去の買い物パターンから推定すると、これからバターも買い物カゴに入る確率が高い)。
  • というか「『コインを投げて表が出る確率は50%です』って何?(27ページ)」 → 本の記述によると、
    • Frequentist的な解釈(長い目での頻度):「たくさん投げたら約半分の回数は表が出ると考えているよ」
    • Bayesian的な解釈(不確かさの情報):「次に投げたときの表になりそう度と裏になりそう度が同じだと考えているよ」 ← 機械学習においては、何かが起こることにどれだけ確信をもっているかに応じて適切な行動を取りたいのだから、こちらの解釈の方が親和性がよい。
  • 28ページ以降、確率の話は基礎的な内容。
    • 5.7節で不確実性下の最適な判断を扱うらしい。
    • 30ページ乳がんの検査の偽陽性率と偽陰性率、実際にこれだけ大きいのは知らなかった。p( 乳がんでない | 陽性 ) が 0.969 ともなると、確かに定期健診として推奨できないだろう。p(陽性) が 0.1 だから1割の人に精密検査が必要になるし。
    • 30ページ)generative classifier と discriminative classifier は日本語だと生成モデル、識別モデルというみたい。
      • 生成モデル: いまメールAを受け取ったとき、メールがスパムである事前確率と、スパムメールだと仮定したうえでメールAが実現する確率を介して、メールAがどれくらいの確率でスパムかを求める。
      • 識別モデル: メールAがスパムである事後確率を直接求めにいく。
    • 31ページ)条件付き独立の例がわかりにくい。教科書と似た別の例を挙げると(これもわかりにくい)、Aさんがバスの運転手という情報が与えられたら、Aさんが運転免許をもっている確率とAさんが明日仕事休みである確率は独立になる。
    • 36ページ)塩基配列ロゴ(?)というのは、はじめて見ました。



2016-03-06 追記
追加で読んだページ: 38~44ページ

  • 38ページからは主要な連続分布の紹介。
    • 正規分布の分散の逆数を precision としばしばよぶ。
      • これはRによるベイジアン動的線型モデルでも、「分散  \sigma^2 より精度  \phi = 1/\sigma^2 で検討を行った方が便利である(16ページ)」と導入されている。この前後の文脈は、平均も分散も未知の場合には正規-ガンマ事前分布を採用すれば事後分布も正規分布になる、ということだったけど、どうやってこの正規-ガンマ分布を得たのか覚えていない。そもそもこっちの本の本読みが最近滞っているけど、先に進める前に2周目(復習)が要るレベル…。
    • 39ページで正規分布を採用するメリットがいくつか述べられているけど、その3つ目のメリットの訳は、「特定の平均と分散をもっている分布としては、最もおくべき仮定が少ない(そしてその仮定とは『エントロピー最大』である)」で合っているのかな。9章でこれについて扱うようなので、またそのとき確認すればいいけど(でも9章遠い…)。
    • t分布は統計の本でよく「検定につかう」という文脈で紹介されるけど、この本では裾野が厚いから異常値に強くロバスト、と紹介されている。実際に機械学習ではロバスト性を目的としてt分布を選択という場面があるのでしょうか。
    • ラプラス分布はモデルに疎な性質を導入するのに便利ですよと。関係あるのか知らないけどスパース性何とか機械学習っていう青い本あるよね。Amazonが買えって。買っていないけど。

分散3の正規分布とt分布を描画するとt分布の裾野は厚いですね。

> plot(c(-10, 10), c(0, 0.01), xlab="", ylab="", type="n", las=1)
> curve(dnorm(x, sd=sqrt(3)), -10, 10, type="l", add=TRUE, lwd=2, lty=1)
> curve(dt(x, df=3), -10, 10, type="l", add=TRUE, lwd=2, lty=2)
> legend("topleft", legend=c("Normal distribution (sd=sqrt(3))", "Student's t distribution (nu=3)"), lwd=2, lty=c(1,2), box.lwd=NA)

f:id:cookie-box:20160306171802p:plain:w480