以下の本を読みます。キャラクターは架空のものです。解釈の誤りは筆者に帰属します。おかしい点がありましたらコメント等でご指摘いただけますと幸いです。

- 作者: 渡辺澄夫
- 出版社/メーカー: コロナ社
- 発売日: 2012/03/01
- メディア: 単行本
- 購入: 1人 クリック: 4回
- この商品を含むブログ (8件) を見る

前回は1章の 1.2.2 節以降を読みましたが、そこで学んだ主なことは以下でした。
- ベイズ推測は確率モデルが指数型分布である場合は、事前分布から事後分布への更新が「ハイパーパラメータの更新」の形になる。
- サンプル
から逆温度
でベイズ推測を行うとき、
点の真の分布と予測分布
の交差エントロピー(汎化誤差)
の期待値は、
サンプルに対して
を仮定したときの自由エネルギー
の期待値から、
サンプルに対して
を仮定したときの自由エネルギー
の期待値を差し引いたものに等しい。

第2章ではもう少し詳しく、そもそも確率モデルによって真の分布が実現可能なのか、パラメータ集合 の中に最適な
があるのかなどを考えて、どんな条件下で何が成り立つのかを議論するのかな。

勝手に先をぱらぱら読まないでください…しかし、1.6 節の「本書の概略」をみておくと、2章で汎化と推測の間に何が成り立つかを調べて、3章では事後分布が正規分布で近似できる理想的な場合、4章ではそうでない場合により詳しく何がいえるかをみていくのでしょうか。5章は現実の計算方法のようですね。6章はベイズ推測によって現実の目的を達成したいときここまでやるべきということ、といった感じがしますが…。7章は一歩下がって、なぜベイズ推測をするのか、ベイズ推測に限らず統計的推測をするときの心構えのようなものがかかれている感じがしますね。なぜこれが最終章なのかわかりませんが…学生からの質問が多い内容だから付け足したとかでしょうか…。

その理由のベイズ推測は難しそうだね。早速2章に進む?




ちなみに にするとこうなるね。

さっきより微妙に最尤推測に近づきましたね。微妙にですが。

ただコインを投げた回数が4回は少ないかもね。「表1回、裏3回」じゃなく「表1回、裏99回」だったらどうだろう。最尤推測の結果は になるはずだ。でもベイズ推測は
だったら、

以下のサイトに以下のコマンドを打ち込んだだけだからね。
Wolfram|Alpha: Computational Intelligence
integrate w (1-w)^3 dw from w = 0 to 1 integrate w^2 (1-w)^3 dw from w = 0 to 1 integrate w (1-w)^4 dw from w = 0 to 1 integrate w^2 (1-w)^6 dw from w = 0 to 1 integrate w^3 (1-w)^6 dw from w = 0 to 1 integrate w^2 (1-w)^7 dw from w = 0 to 1 integrate w (1-w)^99 dw from w = 0 to 1 integrate w^2 (1-w)^99 dw from w = 0 to 1 integrate w (1-w)^100 dw from w = 0 to 1

手抜きだった。

最初は手計算してたけど途中でめんどくさくなってきたからね。

…あの、 の場合ですが、「表1回、裏3回」の場合も「表1回、裏99回」の場合も、ベイズ推測の結果は最尤推測の結果と一致していませんが、「表1回、裏1回」を付け足した「表2回、裏4回」「表2回、裏100回」に対する最尤推測の結果とは一致していませんか??


最尤推測では の最大点をとってしまうのに対して、ベイズ推測ではこれを事後分布として平均することが表1回と裏1回分の差につながっている…。

こうしてみると「事前分布が一定値である」と「パラメータに事前分布などない(頻度論)」は明確に違うんだね。パラメータ集合のどこでも一定値をとる事前分布は一見「データを観測するまではパラメータはどの点なのかわからない」といった差し障りがなさそうなものにみえるけど、その実「パラメータ集合のどの点である可能性も等しくある」という確固たる信念だってわけだね。だから、一定値の事前分布でのベイズ推測はコインの表が出る確率を大きめに見積もる。コインを4回投げて表が出た回数が1回だけだったにもかかわらず、「表が出る確率は 0~1 のどの可能性も等しくあるはずだ」という事前の信念が強いからね。…もっとも を事後分布として考えるとしても、17ページの最後の行にあるように、それで平均するんじゃなくMAP推定するなら最尤推測の結果と同じになるよ。だってMAP推定は「
の最大点をとってしまう」だからね。最尤推測と同じだ。


いまいちすっきりし切りませんね…まあいいです。そういえば、この本は章末問題がありますよね。1章の章末問題をやってみたんですが、1問目から解けなかったんです。だいたい、左辺では に関する下限だったのが右辺では
に関する下限になっているんですよ…。

自由エネルギーの逆温度に関する下限が、確率モデルの負の対数尤度のパラメータに関する下限に等しい、か。逆温度 が大きいほど分配関数は大きくなるから自由エネルギーを小さくできそうだけど、自由エネルギーには逆温度の逆数がかかっているから…
でどこかに収束するのかな? まあその収束先が右辺なんだろうけど…。

どうすればこの右辺になるのかかなり考えてもわからなかったんですが、この本よくみたら章末問題の解答がついているんですよ。もうこの本に対する好感度が非常に上がりましたね。

そ、そっか…。ていうか先に解答ついてるか確認しようよ…。

つまり、分配関数は確率モデルの負の対数尤度でかけますから、そこを確率モデルの負の対数尤度を最小にする(分配関数を最大にする) における負の対数尤度に置き換えれば自由エネルギーを下から評価できます。自由エネルギーはこれより小さくならない、とできます。しかし
とかけたところでこれは
の下限が
であることを意味しませんね(というネタがここ数日ツイッターで流行っているような)。なので、あるときに
は
に近くなることを示さなければなりません。分配関数はパラメータの積分範囲を狭くすれば小さくなりますから、確率モデルの負の対数尤度が最小値+ ε 未満となる領域だけに積分範囲を制限することで自由エネルギーを上から抑えることはできます。任意の ε > 0 について ε よりも小さくできます。のでこの問題の左辺と右辺の下限は等しかったんです。

解答の前半は違和感ない気がするかな…後半が、「分配関数の対数に逆温度の逆数をかけたものはこれより小さくならない」ってことだけど、分配関数の積分の領域をすごく狭くしてるイメージがあるから、そんなに狭くして下限が抑えられるのがちょっと不思議…だけど、逆温度が大きいときはこの狭い領域に分配関数は局在してるわけだし、逆温度を小さくすれば分配関数は局在しないけど「逆温度の逆数」が大きいから結局「分配関数の対数に逆温度の逆数をかけたもの」は大きくなってしまうって感じなのかな…。