Machine Learning: A Probabilistic Perspective: ノート4

読んでいる本(出典):Amazon.co.jp: Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series): Kevin P. Murphy: 洋書

前回:ノート3 / 次回: まだ
目次:Machine Learning: A Probabilistic Perspective

今日読んだページ: 44~51ページ
以下、自分の解釈・感想。

  • 前回までのあらすじ:
    • 2章は確率の話で、前回までは確率論の基礎、離散分布、連続分布の紹介。
  • 44ページからは、多変量の確率分布。「如何にして同時分布をモデリングするかがこの本の中心話題(44ページ)」。確かに、機械学習は、いつも何らかの多変量確率分布を仮定しているはず。
  • 「独立⇒無相関」だけどその逆は成り立たないのはどこかで聞いた話。独立でなくても相関係数は0にできる。
    • だから相関よりちゃんと確率変数どうしの依存性を測るのが 2.8.3 節で扱う mutual information だよと。
  • 代表的な多変量の確率分布は、とばしていきたい…。
  • 1つくらいちゃんと見ておくと、ディリクレ分布は、多変量へ一般化したベータ分布。
    • ベータ分布は何だったかというと、 B をベータ関数として、 f(x|a,b)=x^{a-1}(1-x)^{b-1}/B(a,b)
    • これだけだとよくわからないので、統計検定の教科書を参照すると、二項分布の部分和がベータ分布を使って計算できるとのこと。
    • 例えば、表が出る確率が 0.5 のコインを10回投げる。7回以上表が出る確率はいくらか。
      《答》二項分布でもベータ分布でも出せる。17.2%くらい。
      > 1 - pbinom(size=10, prob=0.5, q=6)
      [1] 0.171875
      > pbeta(shape1=6+1, shape2=10-(6+1)+1, q=0.5)
      [1] 0.171875
    • つまり、 f(x|a,b) 0 から  p まで積分すると、コインを  a+b-1 回投げたときに  a 回以上表が出る確率になる(統計検定の教科書では、 p から  1 まで積分したら表が出る回数が  a-1 回以下、という書き方だけど)。ここで、 p はコインの表が出る確率。
    • を踏まえて43ページの図 2.10 を見ると、
      • 赤い点線(a=1.0, b=1.0)は、「0~p まで積分すると、コインを1回投げたときに1回表が出る確率」。コインを1回投げて表が出る確率は当然pなので、f(x)≡1 (0<x<1) の一様分布なのと整合的。
      • 黒い点線(a=2.0, b=3.0)は、「0~p まで積分すると、コインを4回投げたときに2回以上表が出る確率」。このグラフの左半分 (0<x≤0.5) の面積は以下より 0.6875 = 68.75%。それくらいっぽい。
        > 1 - pbinom(size=4, prob=0.5, q=1)
        > pbeta(shape1=1+1, shape2=4-(1+1)+1, q=0.5)
      • 緑の点線(a=8.0, b=4.0)は、「0~p まで積分すると、コインを11回投げたときに8回以上表が出る確率」。x=0.2 までは f(x)=0 にぺったりしているように見えるが、実際 p=0.2 のときこの面積は 0.0002352 = 0.02% で、こんな歪んだコインで11回中8回以上も表出るか、ということになる。
    • それで肝心のディリクレ分布に戻ると、これはコインじゃなくてサイコロにするようなイメージ。
      •  K=3, \; \alpha=(1,1,1) のディリクレ分布は、三角柱サイコロを1回振って、「面1が出る」が1回起きて、「面2が出る」と「面3が出る」が1回も起きなかったとき、
          面1が出る確率が p_1 である確率が p_1。
          面2が出る確率が p_2 である確率が 1 - p_2。
          面3が出る確率が p_3 である確率が 1 - p_3。
        を意味する気がする。これだと、p_1=1 が選ばれてしまうけど、1回投げただけのデータでは到底信頼できないので。ということと思います。
        どうでもいい心配だけど、三角柱サイコロで「出た面」って、机に伏せた面にしないといけないよね。
      • ディリクレ分布 - Wikipedia
    • probability simplex = 確率単体? の意味は、わかりません。
    • ディリクレ分布は同時に起こらないK種類のこと、つまり、「サイコロのどの面が出るか」や、「この画像は手書き数字のどれか」などを扱う分布だから、また後の方で出てくるはず。実際、期待値・最頻値・分散の表式を「後々のために」提示しているし、初期値はよく等確率(Ex. どの手書き数字の確率も 0.1)から始めるという記述もある(49ページ)。
  • ヤコビアン使う多変量確率変数の変換(51ページ)、統計検定の問題集でやった…。

N.B.= nota bene = note well は「注意せよ」という意味らしい。