前回:ノート3 / 次回: まだ
目次:Machine Learning: A Probabilistic Perspective
今日読んだページ: 44~51ページ
以下、自分の解釈・感想。
- 前回までのあらすじ:
- 2章は確率の話で、前回までは確率論の基礎、離散分布、連続分布の紹介。
- 44ページからは、多変量の確率分布。「如何にして同時分布をモデリングするかがこの本の中心話題(44ページ)」。確かに、機械学習は、いつも何らかの多変量確率分布を仮定しているはず。
- 「独立⇒無相関」だけどその逆は成り立たないのはどこかで聞いた話。独立でなくても相関係数は0にできる。
- だから相関よりちゃんと確率変数どうしの依存性を測るのが 2.8.3 節で扱う mutual information だよと。
- mutual information は日本語でもそのまんま: 相互情報量 - Wikipedia
- だから相関よりちゃんと確率変数どうしの依存性を測るのが 2.8.3 節で扱う mutual information だよと。
- 代表的な多変量の確率分布は、とばしていきたい…。
- 1つくらいちゃんと見ておくと、ディリクレ分布は、多変量へ一般化したベータ分布。
- ベータ分布は何だったかというと、 をベータ関数として、。
- これだけだとよくわからないので、統計検定の教科書を参照すると、二項分布の部分和がベータ分布を使って計算できるとのこと。
- 例えば、表が出る確率が 0.5 のコインを10回投げる。7回以上表が出る確率はいくらか。
《答》二項分布でもベータ分布でも出せる。17.2%くらい。> 1 - pbinom(size=10, prob=0.5, q=6)
[1] 0.171875
> pbeta(shape1=6+1, shape2=10-(6+1)+1, q=0.5)
[1] 0.171875 - つまり、 を から まで積分すると、コインを 回投げたときに 回以上表が出る確率になる(統計検定の教科書では、 から まで積分したら表が出る回数が 回以下、という書き方だけど)。ここで、 はコインの表が出る確率。
- を踏まえて43ページの図 2.10 を見ると、
- 赤い点線(a=1.0, b=1.0)は、「0~p まで積分すると、コインを1回投げたときに1回表が出る確率」。コインを1回投げて表が出る確率は当然pなので、f(x)≡1 (0<x<1) の一様分布なのと整合的。
- 黒い点線(a=2.0, b=3.0)は、「0~p まで積分すると、コインを4回投げたときに2回以上表が出る確率」。このグラフの左半分 (0<x≤0.5) の面積は以下より 0.6875 = 68.75%。それくらいっぽい。
> 1 - pbinom(size=4, prob=0.5, q=1)
> pbeta(shape1=1+1, shape2=4-(1+1)+1, q=0.5) - 緑の点線(a=8.0, b=4.0)は、「0~p まで積分すると、コインを11回投げたときに8回以上表が出る確率」。x=0.2 までは f(x)=0 にぺったりしているように見えるが、実際 p=0.2 のときこの面積は 0.0002352 = 0.02% で、こんな歪んだコインで11回中8回以上も表出るか、ということになる。
- それで肝心のディリクレ分布に戻ると、これはコインじゃなくてサイコロにするようなイメージ。
- のディリクレ分布は、三角柱サイコロを1回振って、「面1が出る」が1回起きて、「面2が出る」と「面3が出る」が1回も起きなかったとき、
面1が出る確率が p_1 である確率が p_1。
面2が出る確率が p_2 である確率が 1 - p_2。
面3が出る確率が p_3 である確率が 1 - p_3。
を意味する気がする。これだと、p_1=1 が選ばれてしまうけど、1回投げただけのデータでは到底信頼できないので。ということと思います。
どうでもいい心配だけど、三角柱サイコロで「出た面」って、机に伏せた面にしないといけないよね。 - ディリクレ分布 - Wikipedia
- のディリクレ分布は、三角柱サイコロを1回振って、「面1が出る」が1回起きて、「面2が出る」と「面3が出る」が1回も起きなかったとき、
- probability simplex = 確率単体? の意味は、わかりません。
- ディリクレ分布は同時に起こらないK種類のこと、つまり、「サイコロのどの面が出るか」や、「この画像は手書き数字のどれか」などを扱う分布だから、また後の方で出てくるはず。実際、期待値・最頻値・分散の表式を「後々のために」提示しているし、初期値はよく等確率(Ex. どの手書き数字の確率も 0.1)から始めるという記述もある(49ページ)。
- ヤコビアン使う多変量確率変数の変換(51ページ)、統計検定の問題集でやった…。
N.B.= nota bene = note well は「注意せよ」という意味らしい。