ベイズ統計の理論と方法: ノート3

以下の本を読みます。キャラクターは架空のものです。解釈の誤りは筆者に帰属します。おかしい点がありましたらコメント等でご指摘いただけますと幸いです。

ベイズ統計の理論と方法

ベイズ統計の理論と方法

書籍サポートページ
前回:ノート2.5 / 次回:まだ
f:id:cookie-box:20190101155733p:plain:w60

2章に入る前に、1章の章末問題がそれぞれどういうことかと、証明のスケッチをメモしておきますね。

  • 【1】「自由エネルギーの逆温度 \beta に関する下限」は「確率モデルの負の対数尤度のパラメータ w に関する下限」に等しい。この後者は言い換えると「パラメータの最尤推定w_{ML} における確率モデルの負の対数尤度」である。
    • まず自由エネルギーを下から評価する。自由エネルギーは「負の対数尤度-\beta をかけて、エクスポネンシャルをとって、\varphi(w) の重みで積分して、対数をとって、-\beta^{-1} をかけたもの」(★)なので、負の対数尤度が小さいほど小さくなる。負の対数尤度は w=w_{ML} で下限をとるので、(★)の負の対数尤度w=w_{ML} における負の対数尤度に置き換えると自由エネルギーを下から評価できる(そしてこれは結局 w=w_{ML} における負の対数尤度そのものになり、\beta によらない)。つまり、自由エネルギーは \beta をどう動かしても w=w_{ML} における負の対数尤度以上には大きい(が、本当にある \beta でそこまで小さくなるかはまだわからない)。
    • 次に自由エネルギーを上から評価する。自由エネルギーは(★)の積分範囲を狭めたものよりは小さい(∵ 被積分関数は任意の w で正、かつ積分した後に負数をかけるので)。なので、積分範囲を「負の対数尤度 < w=w_{ML} における負の対数尤度+\varepsilon 」が成り立つ w に狭める。さらに、負の対数尤度 w=w_{ML} における負の対数尤度+\varepsilon に置き換えてよい(∵ 負数をかけて積分して負数をかけるので、この積分範囲でとる値の上限に置き換えれば上から抑えられる)。すると「自由エネルギーはこれ以下には小さい」という式が出るが、これと w=w_{ML} における負の対数尤度との差の絶対値は任意の正数 \varepsilon' より小さくできる( \varepsilon=\varepsilon' とした後 \beta \to \infty とすればよい)。つまり、自由エネルギーはこれ以下には小さい、という値は \beta \to \inftyw=w_{ML} における負の対数尤度に近づく。
  • 【2】「未知サンプル X の対数尤度の期待値の n 倍のマイナス1倍 nL(w) に、-\beta をかけて、エクスポネンシャルをとって、\varphi(w) の重みで積分して、対数をとって、-\beta^{-1} をかけたもの」は、「自由エネルギーのサンプルの現れ方に対する平均値」よりは小さくならない(29ページにはこの n 倍がないが誤植)。この前者は自由エネルギーの式における「負の対数尤度 nL_n(w)」を未知サンプルに対するそれの nnL(w) に置き換えたものである。
    • 方針として、後者(のサンプルの現れ方に対する平均を取る前)から無理やり前者を絞り出す。すると以下の左辺が残るので右辺のように変形する。
      \displaystyle -\frac{1}{\beta} \log \frac{\int e^{-\beta n L_n(w)} \varphi(w) dw}{\int e^{-\beta n L(w)} \varphi(w) dw} = -\frac{1}{\beta} \log \frac{\int e^{-\beta n \bigl( L_n(w) - L(w) \bigr)} e^{-\beta n L(w)} \varphi(w) dw}{\int e^{-\beta n L(w)} \varphi(w) dw}(★)
      上式の右辺の対数の中身は  f_0(w) = e^{-\beta n L(w)} \varphi(w)  / \bigl( \int e^{-\beta n L(w')} \varphi(w') dw' \bigr) という確率密度関数による平均にみえ、また、f_1(z) = e^{-\beta n z} は凸関数なのでイェンセンの不等式が適用できる。つまり、(★)は「L_n(w) - L(w)f_0(w) による平均の n 倍」(★★)以下であることがわかる。次に(★★)のサンプルの現れ方に対する平均をとることにすると、f_0(w) による平均と積分順序を交換できるので先に L_n(w)-L(w) のサンプルの現れ方に対する平均をとってよいが、これはゼロである(∵ L_n(w)L(w)、平均の定義)。つまり、後者マイナス前者はゼロ以下なので、前者は後者以上である。前者は後者より小さくならない。
  • 【3】略(確率モデル  \displaystyle \prod_{i=1}^n p(X_i|w)^\beta と事前分布 \varphi(w|\phi) の積が a \varphi(w|\hat{\phi}) の形にかければよく、つくり方は14ページの例1と同じ)。

f:id:cookie-box:20190101160814p:plain:w60

【1】からは自由エネルギーとはこういうものだったのだという印象も受けるね。【2】は1つの未知サンプルの対数尤度の期待値に対する自由エネルギー(のようなもの)は、訓練サンプルの自由エネルギー(=通常の自由エネルギー)のサンプルの現れ方に対する期待値よりは小さくならないということだね。等号成立について考えてみても面白いだろう。(★)のサンプルの現れ方に対する平均がゼロになるのはいつかということだね。以下のときには明らかに等号成立する。ベイズ推定をする意味がない状況だけど…。

  • サンプルの出方が確率的ではない(X がもはや確率変数でなく定数 c である)のとき。
  • \varphi(w)デルタ関数のとき。
\beta \to \infty のときは成立しないかな。最尤推定になるわけだけど、負の対数尤度を最小にしたときの自由エネルギーの期待値と、負の対数尤度の期待値を最小にしたときの自由エネルギーは違う気がするから…間違ってたらごめん…。

f:id:cookie-box:20190101155733p:plain:w60

2章に入りましょう。31ページの最後で1章の章末問題【2】の L(w) が出てきますね。こうみると、真の分布と確率モデルの交差エントロピーの形をしています。ということは、「真の分布の(微分エントロピー」から「真の分布と確率モデルのカルバック・ライブラー情報量」を差し引いたものということです。1章では \mathbb{E} [ F_n(1) ] が真の分布と Z_n(1) の交差エントロピーでしたが、それとはまた違いますね。そしてこの L(w) が「真の分布に対して最適なパラメータの集合」を規定するのですか…。

f:id:cookie-box:20190101160814p:plain:w60

ベイズ推定の目指すところは「尤度の(サンプルの出方に対する)期待値を最大化する」⇔「真の分布と確率モデルのカルバック・ライブラー情報量を最小化する」ということなのかな。

f:id:cookie-box:20190101155733p:plain:w60

その後に「q(x)p(x|w) に対して正則」という言葉が出てきますが、これは q(x)p(x|w) で実現可能かどうかに関係なく、唯一の最適解 w_0 が存在するかといったところですね…でも逆に、w_0 が唯一の最適解であってそこでのヘッセ行列が正定値じゃないってどういう状況です? w_0 が唯一の最適解だったらそこで「お椀の底」になっているものじゃないんですか?

f:id:cookie-box:20190101160814p:plain:w60

うーん、ぱっと思い付くのは、パラメータ集合が w_0 の1点のみとか、そうでなくても w_0 の1点のみが飛び地になってるとか、そもそも w_0微分可能でないとか? そしたら、w_0 の近くから w_0 に向かって滑り落ちることはできないね。あと、w_0 が領域の端っこなケースだったら「あらゆる方向から滑り落ちる」って感じになってなくても最小点になることがありえそうだね。

f:id:cookie-box:20190101155733p:plain:w60

33ページにパラメータ集合がコンパクトで連続なら W_0 \neq \emptyset とありますが、どこかに最小点があるはずですからそれはそうですね。しかし、元が1つとも限らなければ、正則とも限らないでしょうね。そして、q(x)p(x|w) で実現可能でないときの W_0 の異なる2つの元は同じ確率分布を表すとは限らない…?

f:id:cookie-box:20190101160814p:plain:w60

それは簡単かな。例えば、まあめちゃくちゃ極端な例だけど「コインを1枚投げて表か裏か」を生成する真の分布が q({\rm head}) = 0.5 だったとする。でも、なぜか確率モデルとパラメータ集合は p({\rm head} | w) = w, \; W = \{0,2, \, 0.4, \, 0.6, \, 0.8\} みたいになってて真の分布を実現可能じゃなかったとする。このとき、W_0 = \{0.4, \, 0.6\} だけど、w_0 = 0.4 が与える分布と w_0 = 0.6 が与える分布は違う。

f:id:cookie-box:20190101155733p:plain:w60

なるほど。確率モデルの制約で真の分布を実現できないが、最接近点が2つ以上あるといった感じですか。例8(1)はそれよりさらに極端な例ですね、あらゆる \thetaL(\theta) は同じになります。ので、すべての \theta が最適ですが、\theta が異なれば確率モデルが与える確率分布は異なります。例8(2)は…何ですかこれ?

f:id:cookie-box:20190101160814p:plain:w60

確率モデルは分散1の正規分布にみえるね。平均が x,y,w によって異なる…これ、さながら中間層が1層のニューラルネットワークだね。z の真の平均は \exp(-x^2-y^2) っていう原点が頂点の山だけど、2つの \tanh() の和でこれを表すのは表現力が足りないし、L(w) を最小にするパラメータが1つあったとして (b_{11}, b_{21}), \, (b_{12}, b_{22})偏角を同じだけずつぐるっと回しても L(w) は同じはずだから結局最適な w_0 は無数にある。そしてそれぞれが与える確率分布は違う。

f:id:cookie-box:20190101155733p:plain:w60

パラメトリックな確率モデルとしてそういうものを選んでしまうと最適解が無限にある谷底になってしまうんですね…。35ページでは対数尤度比の「相対的に有限な分散」という概念が出てきますね。36ページの一番下のようにもかけるということですが…だから何なのでしょう。

f:id:cookie-box:20190101160814p:plain:w60

対数尤度比は最適なパラメータでゼロをとり、その2乗平均はあらゆる x で対数尤度比がゼロの周りで平均的にどれだけばらつくかを意味するね。ゼロの周りでのばらつきは一般に小さい方がいいだろう。ばらつきが大きいなら、最適に近いパラメータがたくさんあることになって、推定が不安定そうだからね。ただ、対数尤度比がゼロの周りでばらつくとしても、対数尤度比自体が平均的に小さいなら、本当に最適に近いパラメータの範囲が広いんだからばらついてもしょうがない。だから「対数尤度比のゼロの周りでのばらつきが対数尤度比の期待値の定数倍で抑えられてほしい」ってことになるのかな。だいぶ雰囲気だけど。さっきのコイン投げの例で W = \{0.4, \, 0.6\} とすると相対的に有限な分散にはならないと思う。 \mathbb{E}_X [f(x, 0.4, 0.6)]  = \mathbb{E}_X [f(x, 0.6, 0.4)] = 0 だけど、一方で  \mathbb{E}_X [f(x, 0.4, 0.6)^2]  = \mathbb{E}_X [f(x, 0.6, 0.4)^2] > 0 だから、やっぱり定数 c_0 をどうとっても式 (2.6) を成り立たせることができない。

f:id:cookie-box:20190101155733p:plain:w60

はあ…補題4もみてみますね。(1) のいっていることは、最適なパラメータが複数あったとしても、対数尤度比が相対的に有限な分散をもつ場合は、最適な異なる2つのパラメータ間の対数尤度比がいかなる x でもゼロになる…であれば、いかなる x でも確率確率密度は同じということなので、実質的にユニークですね。相対的に有限な分散をもたない場合は最右辺がかけないので対数尤度比がいかなる x でもゼロとはいえないですね。対数尤度比の期待値はゼロだが、それはある x では片方の確率密度が大きく、また別の x ではもう片方の確率密度が大きく、対数尤度比がマイナスとプラスを波打ち、均してゼロになっているという状態ですね。(2) は…何がなんだか。

f:id:cookie-box:20190101160814p:plain:w60

…実現可能なときは、最適なパラメータとの対数尤度比の期待値はカルバック・ライブラー情報量になるんだね。このカルバック・ライブラー情報量は最適なパラメータの近くではゼロに近いから、実現可能な場合には最適なパラメータの近くで対数尤度比の期待値がゼロに近くて、分散の大きさも抑えられるということを示しているんだとは思うけど…。(3) も証明を追えてないけど、察するに最適なパラメータがお椀の底である場合には相対的に有限な分散をもちそうだね。というより、対数尤度比の期待値がちゃんと正の値になりそう。

f:id:cookie-box:20190101155733p:plain:w60

注意13の (2) も気になりますが、置いておきますか。…と、ここまでが 2.1 節ですか。えっと、私たちはこの節で何を学んだのでしたっけ…?

f:id:cookie-box:20190101160814p:plain:w60

私たちがこの節で学んだことは図 2.1 に他ならないよ。このベン図は6つの領域に区切られているけど、あらゆる「真の分布」と「それに寄せたいパラメトリックな分布」の関係はこの6つの領域のどこかに落ちる。

f:id:cookie-box:20190101155733p:plain:w60

なるほど。これ、補題3と補題4が集約された図なんですね。しかし、節の最後に、ここまではサンプルが介さない話だともありますね…。

(ノート4があれば)つづく