ベイズ統計の理論と方法：ノート4章その0.1

以下の本を読みます。キャラクターは架空のものです。解釈の誤りは筆者に帰属します。おかしい点がありましたらコメント等でご指摘いただけますと幸いです。

ベイズ統計の理論と方法

作者: 渡辺澄夫
出版社/メーカー: コロナ社
発売日: 2012/03/01
メディア: 単行本
購入: 1人クリック: 4回
この商品を含むブログ (8件) を見る

書籍サポートページ

これまで：ノート1 ／ノート2 ／ノート2.5 ／ノート3

f:id:cookie-box:20190101155733p:plain:w60

というわけで4章にとびます。

f:id:cookie-box:20190101160814p:plain:w60

なんで！？

勉強会で4章の前半を担当するので準備しないといけないんですが、なんかこの箇所はただ数学であって、それまでの内容に依存していなさそうなので先に読んでおいてもよさそうな気がしたんですよね。

本当かなあ…。

85ページから読んでいくと、4章ではベイズ推測の事後分布が正規分布で近似できない場合の理論を取り扱っていくのですね。35ページのベン図でいうと、「正則」の丸の中で何が成り立つのかを3章でやって、次に「相対的に有限な分散をもつ」の丸の中で何が成り立つのかを4章でやろうというところだと思います。3章をまだ読んでいませんが。それで、4章の前半は数学的準備なのですが、何を目指して準備するのかを把握しておきたいですね。4章の序文にこの章で目指すことが4点紹介されています。まず (1) は、経験誤差の $n$ 倍である $nK_n$ 、つまり各サンプルの対数尤度比の和がある形にかけると主張していますね？正規確率過程って何ですか？

ガウス過程のことかな？索引によると210ページだね…210ページの $\xi(w)$ は $w$ を添え字とするガウス過程だね。

ということは、あるパラメータ $w$ における各サンプルの対数尤度比の和は、それを何らかの写像 $g^{-1}(\cdot)$ で変換したパラメータ $u$ の式でかける確率変数であり、その確率的なファクター $\xi_n(u)$ はサンプル数が多いときガウス過程に近いと…うーん、そもそも正則な場合はどうだったのかもわからないし何を思えばいいのかわかりません。

正則の場合の経験誤差 $K_n$ のふるまいは70ページがそうなのかな（最終目標は経験誤差じゃなくて汎化損失 $G_n$ と経験損失 $T_n$ のふるまいだけど）。この $J$ は平均対数損失 $L(w)$ 、つまり真の分布と確率モデルの交差エントロピーのヘッセ行列だね（52ページ）。実現可能で正則なケースではこれが単位行列なのか（65ページ）。3章での $\xi_n$ は60ページをみると、各サンプルの「平均誤差 $K(w)$ と対数尤度の差」の和の $n^{-1/2}$ 倍の最適なパラメータ $w_0$ におけるナブラに $J^{-1/2}$ をかけたもので、正規分布に分布収束するらしい（60ページ）。たぶんだけど、パラメータ空間で最適なパラメータが深い谷になってるほど $\xi_n$ はあまりばらつかなくて、最適なパラメータが浅い谷になってるほど $\xi_n$ もばらつくのかな…。

正則であろうとなかろうと、汎化損失 $G_n$ や経験損失 $T_n$ のふるまいを知りたいとき先に経験誤差 $K_n$ のふるまいを考えるらしいということしかわかりませんね。 $T_n$ の1次キュムラントが最適パラメータにおける経験対数損失 $L_n(w_0)$ と経験誤差 $K_n$ のパラメータ平均の和のマイナス1倍で表せるからでしょうか…というか2章もまだ前半しか読んでなかったですね。

それで4章の序文を理解するのは無理でしょ…さしあたり4章の目指すところは、正則でない場合の (1) 経験誤差のふるまい、(2) 自由エネルギーのふるまい、(3) 汎化損失の分布、(4) ベイズ推測でない推測方法の場合の性質―を考える、ってことでいいんじゃないかな。

もどかしいですがそれで手を打つよりないですね…ん？ (4) のところにちょっと気になることがかいていませんか？「平均プラグイン推測では、漸近的にも真の分布が推測できない」って、漸近的にも無理とか推測手法としてどれだけ駄目なんですか？平均プラグイン推測の何がそれほどの欠陥なんですか？？

いや、正則でない場合って普通に悪条件だと思うからそこまでいわなくても…まあでも125ページをみると何が欠陥なのかは簡単だ。最適なパラメータが「凸集合じゃない」から。そりゃ平均をとっちゃ駄目でしょって話だ。最適なパラメータがドーナツ状に分布してたら、その平均（重心）はドーナツからはみ出すからね。いくらサンプルを増やしてもこれは解決しない。

なるほど。逆に他の推測方法ではそのような事態にはならないんですね。 $w$ の何らかの関数の最大点を取るとか $w$ の分布で確率モデルを平均するということをすれば大丈夫ということなんでしょうか。…序文の続きをみると、事後分布による平均操作って経験誤差 $K_n$ でこんな風にかけるんですか？

事後分布は元々対数尤度でかけるし、そこを対数尤度比にしてもいいよ。最適なパラメータにおける尤度で割ることになっちゃうけど、正規化定数の方も割ってるから問題ないね。

いわれてみればそうですね。それでだから事後微小積分を考える？確かにベイズ推測とは事後分布による確率モデルの平均ですが…正則でない場合には事後分布は特異点を含んでいる？特異点というのはSIREN2で主人公が最後に飛ばされる舞台のことですか？

違うかな。特異点の定義は文脈依存だと思うから読んでいけばいいと思う。まあでも、正則でないときにはパラメータ空間内で損失が何かしら滑らかでないことになってるんだろう。でもベイズ推測の性質を調べるためにはそこを滑らかにしたくて…だから多様体か。というか特異点解消定理をつかうんだね。あ、特異点解消定理で検索したら著者の方のページが出てきたよ。

特異点の解消

そのページをみると結び目がほどけたような…というか広中の定理というのをみて「誰？」と思ったんですが「日本人なら誰でもよく知っている」とは圧が強いですね…。しかし何となくは4章のモチベーションがわかった気がします。本編に入っていきましょう。…すみません、開集合って一般の集合に定義されるんですか？開集合とは数直線上で端っこが白丸の区間といった理解なんですが…。

定義されるっていうかルールを満たすように決めていいんだよね。ある集合 $\mathcal{M}$ のべき集合の部分集合 $\mathcal{O}$ であって、【１】 $\emptyset$ も $\mathcal{M}$ も $\mathcal{O}$ の元で、【２】 $\mathcal{O}$ の有限個の元の共通部分もまた $\mathcal{O}$ の元で、【３】 $\mathcal{O}$ の任意の個数の元の和集合もまた $\mathcal{O}$ であるような $\mathcal{O}$ であれば開集合全体として認めてもらえるんだよね。

位相空間 - Wikipedia

例えばだけど、｛りんご、みかん、ぶどう｝という集合があったとして、「この集合の任意の部分集合を開集合とする」と決めてもいいし、「空集合と全体集合のみを開集合とする」と決めてもいいよ。

はあ。え、ん？あの、任意の部分集合を開集合とする場合、｛りんご｝も開集合で｛みかん、ぶどう｝も開集合なのですよね？しかし、そのウィキペディアの記事にもあるように、補集合が開集合であるような集合は閉集合なのではないのですか？どちらかは閉集合でなければおかしくないですか？

いや、だから、｛りんご｝も｛みかん、ぶどう｝も開集合でもあり閉集合でもあるよ。

開集合でも閉集合でもある？それはもう開いているのか閉じているのかどっちなんですか？？自然言語としておかしいでしょう！？

私にいわれても…数学で自然言語がどうとかいいだしたら、数理論理学で「不完全性」が「完全性をもたない」って意味じゃないことの方がよっぽどだよ。

それもよっぽどですね！？ …まあその辺は百歩ゆずるとして、「開集合はルールを守って決めましょう」というルールはわかりました。しかし、何を目指して決めればいいんです？言い換えると、「空集合と全体集合と｛りんご｝を開集合とする」と決めたとして、だから何なんです？

開集合を決めると、各点の「近傍」が決まり、「連続な写像」が決まり、さらに近傍が決まると「収束」が決まってったりするよ。近傍というのはその点を含む任意の開集合（を包含する任意の集合）だね。開集合で囲まれた内側はご近所さんのくくりって感じかな。もちろん狭いレベルのご近所さんも広いレベルのご近所さんも色々あるけど。それで点列がある点に収束することの定義はあるインデックス以降でその点の任意の近傍に入ることだから、｛りんご｝が開集合だったらりんごに収束する点列は絶対にあるインデックス以降でりんごにならないといけない。でもみかんとぶどうに収束する点列はそうじゃなくてもいいかな。みかんにとって一番狭いご近所さんは｛りんご、みかん、ぶどう｝だからね。ぶどうも同じ。

その場合、みかんに収束するのにみかんに収束しなくてもいいということですか？ややこしいですね…。

まあハウスドルフ空間ならそんなことにならないんだけどね。

（ノート4章のつづきがあれば）つづく

メモ

$L(w)$	平均対数損失	真の分布と確率モデルの交差エントロピー（なのでサンプルは関係ない）。これが小さいパラメータほど、そのパラメータにおける確率モデルが真の分布に近い。この $L(w)$ の最小点 $w_0$ が「最適なパラメータ」といわれる。真の分布が確率モデルで実現可能な場合には、最小点 $w_0$ における確率モデルは真の分布を再現し、 $L(w_0)$ は真の分布のエントロピーを達成する。
$L_n(w)$	経験対数損失	サンプルによる経験分布と確率モデルの交差エントロピー（なのでサンプル依存）。
$G_n$	汎化損失	真の分布と予測分布の交差エントロピー（なのでサンプル依存）。なので、ベイズ推測はこれを小さくするものであってほしいし、どれくらい小さくなるものか知りたい。
$T_n$	経験損失	サンプルによる経験分布と予測分布の交差エントロピー（なのでサンプル依存）。
$K(w)$	平均誤差	真の分布上での、対数尤度比 $f(x,w) = \log p(x\|w_0) / p(x\|w)$ の平均（なのでサンプルは関係ない）。平均損失の最適なパラメータとの差 $L(w)-L(w_0)$ に等しい。ということからも明らかだが、最適なパラメータ $w_0$ においては任意の $x$ で $f(x,w_0)$ = 0 なので $K(w_0)=0$ である。なので結局 $K(w)$ とは $L(w)$ の最小値をゼロにずらしたもので、その大小の意味するところは $L(w)$ と同じでこれが小さいパラメータほど、そのパラメータにおける確率モデルが真の分布に近い。
$K_n(w)$	経験誤差	サンプルによる経験分布上での、対数尤度比の平均（なのでサンプル依存）。経験損失の最適なパラメータとの差 $L_n(w)-L_n(w_0)$ に等しく、 $K_n(w_0)=0$ である。