ベイズ統計の理論と方法：ノート4

以下の本を読みます。キャラクターは架空のものです。解釈の誤りは筆者に帰属します。おかしい点がありましたらコメント等でご指摘いただけますと幸いです。

ベイズ統計の理論と方法

作者: 渡辺澄夫
出版社/メーカー: コロナ社
発売日: 2012/03/01
メディア: 単行本
購入: 1人クリック: 4回
この商品を含むブログ (8件) を見る

書籍サポートページ

これまで：ノート1 ／ノート2 ／ノート2.5 ／ノート3 ／ノート4章その0.1

f:id:cookie-box:20190101155733p:plain:w60

前回（ノート3）で読んだ 30～40 ページをまとめるとこうですね。

$q(x)$ が $p(x|w)$ で実現可能　 $\Rightarrow$ 　 $f(x,w)$ は相対的に有限な分散をもつ
$q(x)$ が $p(x|w)$ で実現可能　 $\Rightarrow$ 　 $f(x,w)$ は相対的に有限な分散をもつ
$f(x,w)$ が相対的に有限な分散をもつ　 $\Rightarrow$ 　 $q(x)$ に対して最適な $p(x|w)$ は実質的にユニーク

f:id:cookie-box:20190101160814p:plain:w60

それただの補題 4 じゃん…。

41ページに進むと、最適な確率分布 $p_0(x)$ が実質的にユニークな場合に限って考えれば、あらゆるパラメータにおける確率モデルを画一的に $\displaystyle p(x|w) = p_0(x) \frac{p(x|w)}{p_0(x)} = p_0(x) e^{ - p_0(x) / \log p(x|w)} = p_0(x)^{- f(x, w)}$ とかくことができるということです。あらゆる $x$ における $f(x, w)$ は $- \log(x|w)$ を定数 $\log p_0(x)$ だけシフトしたものになると。それはそうですね。また、あるパラメータにおける平均対数損失 $L(w)$ の、最適なパラメータにおける $L(w_0)$ との誤差は、 $\displaystyle L(w) - L(w_0) = - \int q(x) \log p(x|w) dx + \int q(x) \log p(x|w_0) dx = \int q(x) \log \frac{p(x|w_0)}{p(x|w)} dx$ より $f(x,w)$ の真の分布に対する平均に等しくなりますが、これが平均誤差 $K(w)$ と名付けられていますね。「損失」やら「誤差」やら「平均」やら「汎化」やら色々な言葉が出てきて、何がなにやらといった感じですが…。

「損失」というのは専ら「負の対数尤度」に用いられていると思う。この損失が小さくなるパラメータを探せというもので、「いまのパラメータのよさ」ともいえる。確率モデルに対する損失で真の分布に対する平均なら「平均対数損失」、経験分布に対する損失なら「経験対数損失」だね。他方、予測モデルに対する損失は「ベイズ推測という枠組み自体のよさ」で、「汎化損失」「経験損失」で測られるけど、「平均対数汎化損失」「経験対数汎化損失」という方が丁寧かもね。誤差は「損失を最小にする最適なパラメータとの対数（汎化）損失の差」だね。自由エネルギーのふるまいを知るのに平均対数損失じゃなく平均誤差を主役にした「正規化された自由エネルギー」で議論するみたい。最適なパラメータにおける自由エネルギーを原点にとるんだね。

では自由エネルギーは何だったのかというと、確率モデルの下でのサンプルの選択情報量のような量ですが、逆温度にもより、逆温度が正の無限大の極限で確率モデルの負の対数尤度になるのでしたっけ。それで44ページで、実数 $\alpha$ に対して汎化損失と経験損失のキュムラント母関数というのが定義されていますね。

　 $\mathcal{G}_n(\alpha) \equiv \mathbb{E}_X \Bigl[ \log \mathbb{E}_w \bigl[ p(X|w)^\alpha \bigr] \Bigl]$ 　 $\Biggl( G_n = - \mathbb{E}_X \Bigl[ \log \mathbb{E}_w \bigl[ p(X|w) \bigr] \Bigl] = - \mathcal{G}_n(1) \Biggr)$
　 $\mathcal{T}_n(\alpha) \equiv \displaystyle \frac{1}{n} \sum_{i=1}^n \log \mathbb{E}_w \bigl[ p(X_i |w)^\alpha \bigr]$ 　 $\Biggl( T_n = - \displaystyle \frac{1}{n} \sum_{i=1}^n \log \mathbb{E}_w \bigl[ p(X_i |w) \bigr] = - \mathcal{T}_n(1) \Biggr)$

確率変数 $X$ のキュムラント母関数 $K_X(t)$ とは、モーメント母関数 $M_X(t)$ を用いて $K_X(t) \equiv \log \bigl( M_X(t) \bigr) = \log \bigl( \mathbb{E} (e^{tX}) \bigr)$ というものなんですね。

キュムラント母関数 - Wikipedia

$\mathbb{E}_w \bigl[ \cdot \bigr]$ は事後分布による平均の意味なので、 $\mathbb{E}_w \bigl[ p(X|w)^\alpha \bigr]$ は、 $\alpha = 1$ とすればデータ $X$ が観測される確率の予測値（予測分布の $x=X$ での値）という二重の意味での確率変数ですね。つまり、 $\log \mathbb{E}_w \bigl[ p(X|w)^\alpha \bigr]$ は「ある未知データの対数尤度」なる確率変数 $\log p(X|w)$ の、予測分布を計算するのに用いた訓練サンプルの出方に対するキュムラント母関数ですね。 $\mathcal{G}_n(\alpha)$ と $\mathcal{T}_n(\alpha)$ はそれをさらに真の分布で平均したり、真の分布の代わりに経験分布で平均したりしたものであるようですが。そしてこれらを $\alpha$ で $k$ 階微分して $\alpha = 0$ としたのが $k$ 次キュムラントですか…我々はなぜ急にキュムラントなるものを突き付けられたのでしょう？

ゴールは47ページの定理1だね。

なんと、汎化損失と経験損失はキュムラントを用いてこのようにかけるのですか…だから何なのでしょう？

汎化損失を以下の要素と残差の和に展開できたんだから、