ベイズ統計の理論と方法: ノート4

以下の本を読みます。キャラクターは架空のものです。解釈の誤りは筆者に帰属します。おかしい点がありましたらコメント等でご指摘いただけますと幸いです。

ベイズ統計の理論と方法

ベイズ統計の理論と方法

書籍サポートページ
f:id:cookie-box:20190101155733p:plain:w60

前回(ノート3)で読んだ 30~40 ページをまとめるとこうですね。

  • q(x)p(x|w) で実現可能 \Rightarrow f(x,w) は相対的に有限な分散をもつ
  • q(x)p(x|w) で実現可能 \Rightarrow f(x,w) は相対的に有限な分散をもつ
  • f(x,w) が相対的に有限な分散をもつ \Rightarrow q(x) に対して最適な p(x|w) は実質的にユニーク 

f:id:cookie-box:20190101160814p:plain:w60

それただの補題 4 じゃん…。

f:id:cookie-box:20190101155733p:plain:w60

41ページに進むと、最適な確率分布 p_0(x) が実質的にユニークな場合に限って考えれば、あらゆるパラメータにおける確率モデルを画一的に  \displaystyle p(x|w) = p_0(x) \frac{p(x|w)}{p_0(x)} = p_0(x) e^{ - p_0(x) / \log p(x|w)} = p_0(x)^{- f(x, w)} とかくことができるということです。あらゆる x における f(x, w)- \log(x|w) を定数  \log p_0(x) だけシフトしたものになると。それはそうですね。また、あるパラメータにおける平均対数損失 L(w) の、最適なパラメータにおける L(w_0) との誤差は、 \displaystyle L(w) - L(w_0) = - \int q(x) \log p(x|w) dx + \int q(x) \log p(x|w_0) dx = \int q(x) \log \frac{p(x|w_0)}{p(x|w)} dx より f(x,w) の真の分布に対する平均に等しくなりますが、これが平均誤差 K(w) と名付けられていますね。「損失」やら「誤差」やら「平均」やら「汎化」やら色々な言葉が出てきて、何がなにやらといった感じですが…。

f:id:cookie-box:20190101160814p:plain:w60

「損失」というのは専ら「負の対数尤度」に用いられていると思う。この損失が小さくなるパラメータを探せというもので、「いまのパラメータのよさ」ともいえる。確率モデルに対する損失で真の分布に対する平均なら「平均対数損失」、経験分布に対する損失なら「経験対数損失」だね。他方、予測モデルに対する損失は「ベイズ推測という枠組み自体のよさ」で、「汎化損失」「経験損失」で測られるけど、「平均対数汎化損失」「経験対数汎化損失」という方が丁寧かもね。誤差は「損失を最小にする最適なパラメータとの対数(汎化)損失の差」だね。自由エネルギーのふるまいを知るのに平均対数損失じゃなく平均誤差を主役にした「正規化された自由エネルギー」で議論するみたい。最適なパラメータにおける自由エネルギーを原点にとるんだね。

f:id:cookie-box:20190101155733p:plain:w60

では自由エネルギーは何だったのかというと、確率モデルの下でのサンプルの選択情報量のような量ですが、逆温度にもより、逆温度が正の無限大の極限で確率モデルの負の対数尤度になるのでしたっけ。それで44ページで、実数 \alpha に対して汎化損失と経験損失のキュムラント母関数というのが定義されていますね。

  \mathcal{G}_n(\alpha) \equiv \mathbb{E}_X \Bigl[ \log \mathbb{E}_w \bigl[ p(X|w)^\alpha \bigr] \Bigl]   \Biggl( G_n = - \mathbb{E}_X \Bigl[ \log \mathbb{E}_w \bigl[ p(X|w) \bigr] \Bigl] = - \mathcal{G}_n(1) \Biggr)
  \mathcal{T}_n(\alpha) \equiv \displaystyle \frac{1}{n} \sum_{i=1}^n \log \mathbb{E}_w \bigl[ p(X_i |w)^\alpha \bigr]   \Biggl( T_n = -  \displaystyle \frac{1}{n} \sum_{i=1}^n \log \mathbb{E}_w \bigl[ p(X_i |w) \bigr] = - \mathcal{T}_n(1) \Biggr)
確率変数 X のキュムラント母関数 K_X(t) とは、モーメント母関数 M_X(t) を用いて K_X(t) \equiv \log \bigl( M_X(t) \bigr) = \log \bigl( \mathbb{E} (e^{tX}) \bigr) というものなんですね。\mathbb{E}_w \bigl[ \cdot \bigr] は事後分布による平均の意味なので、\mathbb{E}_w \bigl[ p(X|w)^\alpha \bigr] は、\alpha = 1 とすればデータ X が観測される確率の予測値(予測分布の x=X での値)という二重の意味での確率変数ですね。つまり、\log \mathbb{E}_w \bigl[ p(X|w)^\alpha \bigr] は「ある未知データの対数尤度」なる確率変数  \log p(X|w) の、予測分布を計算するのに用いた訓練サンプルの出方に対するキュムラント母関数ですね。\mathcal{G}_n(\alpha)\mathcal{T}_n(\alpha) はそれをさらに真の分布で平均したり、真の分布の代わりに経験分布で平均したりしたものであるようですが。そしてこれらを \alphak微分して \alpha = 0 としたのが k 次キュムラントですか…我々はなぜ急にキュムラントなるものを突き付けられたのでしょう?

f:id:cookie-box:20190101160814p:plain:w60

ゴールは47ページの定理1だね。

f:id:cookie-box:20190101155733p:plain:w60

なんと、汎化損失と経験損失はキュムラントを用いてこのようにかけるのですか…だから何なのでしょう?

f:id:cookie-box:20190101160814p:plain:w60

汎化損失を以下の要素と残差の和に展開できたんだから、

  • 最適なパラメータにおける平均対数損失。
  • 平均誤差の事後分布による期待値。
  • 対数尤度比の2乗の事後分布による期待値から対数尤度比の事後分布による期待値の2乗を引いたものの真の分布の期待値。
ここからさらに仮定をおいていくことで、ベイズ推測は「n \to + \infty で収束するのか」「どこに収束するのか」「どのように収束するのか」が議論できるようになるんじゃないのかな…わからないけど。

f:id:cookie-box:20190101155733p:plain:w60

補題 7 が k 次キュムラントと対数尤度比の関係をいっているのですか。それに先立つ補題 6 が k 次キュムラントと確率モデルの関係といった感じなんですね。補題 9 は、汎化損失と経験損失のキュムラント母関数のサンプルの出方に関する期待値の関係ですか。

つづきは後で