Machine Learning: A Probabilistic Perspective：ノート4

読んでいる本（出典）：Amazon.co.jp： Machine Learning: A Probabilistic Perspective (Adaptive Computation and Machine Learning series): Kevin P. Murphy: 洋書

前回：ノート3 ／次回：まだ
目次：Machine Learning: A Probabilistic Perspective

今日読んだページ： 44～51ページ
以下、自分の解釈・感想。

前回までのあらすじ：
- 2章は確率の話で、前回までは確率論の基礎、離散分布、連続分布の紹介。

44ページからは、多変量の確率分布。「如何にして同時分布をモデリングするかがこの本の中心話題（44ページ）」。確かに、機械学習は、いつも何らかの多変量確率分布を仮定しているはず。
「独立⇒無相関」だけどその逆は成り立たないのはどこかで聞いた話。独立でなくても相関係数は0にできる。
- だから相関よりちゃんと確率変数どうしの依存性を測るのが 2.8.3 節で扱う mutual information だよと。
  - mutual information は日本語でもそのまんま：相互情報量 - Wikipedia

代表的な多変量の確率分布は、とばしていきたい…。
1つくらいちゃんと見ておくと、ディリクレ分布は、多変量へ一般化したベータ分布。
- ベータ分布は何だったかというと、 $B$ をベータ関数として、 $f(x|a,b)=x^{a-1}(1-x)^{b-1}/B(a,b)$ 。
- これだけだとよくわからないので、統計検定の教科書を参照すると、二項分布の部分和がベータ分布を使って計算できるとのこと。
  - 日本統計学会公式認定統計検定1級対応統計学
- 例えば、表が出る確率が 0.5 のコインを10回投げる。7回以上表が出る確率はいくらか。
  《答》二項分布でもベータ分布でも出せる。17.2%くらい。
  > 1 - pbinom(size=10, prob=0.5, q=6)
  [1] 0.171875
  > pbeta(shape1=6+1, shape2=10-(6+1)+1, q=0.5)
  [1] 0.171875
- つまり、 $f(x|a,b)$ を $0$ から $p$ まで積分すると、コインを $a+b-1$ 回投げたときに $a$ 回以上表が出る確率になる（統計検定の教科書では、 $p$ から $1$ まで積分したら表が出る回数が $a-1$ 回以下、という書き方だけど）。ここで、 $p$ はコインの表が出る確率。
- を踏まえて43ページの図 2.10 を見ると、
  - 赤い点線（a=1.0, b=1.0）は、「0～p まで積分すると、コインを1回投げたときに1回表が出る確率」。コインを1回投げて表が出る確率は当然pなので、f(x)≡1 (0<x<1) の一様分布なのと整合的。
  - 黒い点線（a=2.0, b=3.0）は、「0～p まで積分すると、コインを4回投げたときに2回以上表が出る確率」。このグラフの左半分 (0<x≤0.5) の面積は以下より 0.6875 = 68.75%。それくらいっぽい。
    > 1 - pbinom(size=4, prob=0.5, q=1)
    > pbeta(shape1=1+1, shape2=4-(1+1)+1, q=0.5)
  - 緑の点線（a=8.0, b=4.0）は、「0～p まで積分すると、コインを11回投げたときに8回以上表が出る確率」。x=0.2 までは f(x)=0 にぺったりしているように見えるが、実際 p=0.2 のときこの面積は 0.0002352 = 0.02% で、こんな歪んだコインで11回中8回以上も表出るか、ということになる。
- それで肝心のディリクレ分布に戻ると、これはコインじゃなくてサイコロにするようなイメージ。
  - $K=3, \; \alpha=(1,1,1)$ のディリクレ分布は、三角柱サイコロを1回振って、「面1が出る」が1回起きて、「面2が出る」と「面3が出る」が1回も起きなかったとき、
    　　面1が出る確率が p_1 である確率が p_1。
    　　面2が出る確率が p_2 である確率が 1 - p_2。
    　　面3が出る確率が p_3 である確率が 1 - p_3。
    を意味する気がする。これだと、p_1=1 が選ばれてしまうけど、1回投げただけのデータでは到底信頼できないので。ということと思います。
    どうでもいい心配だけど、三角柱サイコロで「出た面」って、机に伏せた面にしないといけないよね。
  - ディリクレ分布 - Wikipedia
- probability simplex = 確率単体？の意味は、わかりません。
- ディリクレ分布は同時に起こらないK種類のこと、つまり、「サイコロのどの面が出るか」や、「この画像は手書き数字のどれか」などを扱う分布だから、また後の方で出てくるはず。実際、期待値・最頻値・分散の表式を「後々のために」提示しているし、初期値はよく等確率（Ex. どの手書き数字の確率も 0.1）から始めるという記述もある（49ページ）。

ヤコビアン使う多変量確率変数の変換（51ページ）、統計検定の問題集でやった…。

N.B.= nota bene = note well は「注意せよ」という意味らしい。