ベイズ統計の理論と方法: 4章の章末問題【2】(実対数閾値とその多重度)

以下の本を読みます。キャラクターは架空のものです。解釈の誤りは筆者に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。

ベイズ統計の理論と方法

ベイズ統計の理論と方法

書籍サポートページ
f:id:cookie-box:20190101155733p:plain:w60

4章の章末問題【2】は、「確率モデルに対して真の分布が正則であるときには \lambda = d/2 かつ m=1 であることを示せ」ですか。… \lambdam って何ですか?

f:id:cookie-box:20190101160814p:plain:w60

103ページの定義17だね。

f:id:cookie-box:20190101155733p:plain:w60

ふむ、まず k = (k_1, \cdots, k_d)h = (h_1, \cdots, h_d) はどちらも非負整数の d 個組であって、平均誤差 K(w)特異点解消定理を適用したときの、定理を満たす \mathcal{M} でのある局所座標表示における平均誤差の姿 K \bigl( g(u) \bigr) = u_1^{2k_1}u_2^{2k_2} \cdots u_d^{2k_d}gヤコビアンの姿  |g'(u)| = b(u) \bigl| u_1^{h_1} u_2^{h_2} \cdots u_d^{h_d} \bigr| の肩に現れる指数(多重指数)ですね。そして \lambda (実対数閾値)と m (その多重度)の定義はそれらを用いて、

 \displaystyle \lambda = \underset{j}{\rm min} \left( \frac{h_j + 1}{2k_j} \right), \quad m = \#\left\{ \frac{h_j + 1}{2k_j} = \lambda \right\}
こうですか。定義はわかりましたが、この \lambdam に何の意味が…。

f:id:cookie-box:20190101160814p:plain:w60

まず前提として、\mathcal{M} の世界での事後分布上の平均や分散をとる操作をするために、u の密度ではなくて t = u^{2k} の密度を知りたいんだよね。せっかくパラメータを w から u に変換したところなんだけど、さらに t に変換したい。u の密度 |u^h| b(u) に対して、t = u^{2k} の密度は  \delta(t - u^{2k}) |u^h| b(u) とかける。だって、t = u^{2k} の密度は

  • f(u) = u^{2k} - t = 0 を満たす全ての u での |u^h| b(u) の値を抜き出してきて、それぞれの u での f微分の絶対値の逆数の比で足し合わせたもの
になるけど、この「それがゼロになる点について、隣にある関数の値を抜き出してきて足し合わせるもの」というのはデルタ関数の定義そのものだからね。

f:id:cookie-box:20190101155733p:plain:w60

t = u^{2k} の密度  \delta(t - u^{2k}) |u^h| b(u) が知りたいんですか。しかし、それと \lambdam がどう関係あるんです?

f:id:cookie-box:20190101160814p:plain:w60

うん、t = u^{2k} の密度が知りたいんだけど、(n が大きいとき)事後分布が一番濃くなる点は  K \bigl( g(u) \bigr) = u^{2k} = 0 だから、t をゼロに近づけたときに一番ゼロに近づくのが遅い成分だけわかればじゅうぶんなんだよね。

f:id:cookie-box:20190101155733p:plain:w60

いや、「一番ゼロに近づくのが遅い成分だけでじゅうぶん」とか譲歩した感じ出されてもわからないですからね。だいたい  \delta(t - u^{2k}) |u^h| b(u) などという得体の知れない形式の関数を、ゼロに近づく速さごとに分ける方法なんてあるんですか?

f:id:cookie-box:20190101160814p:plain:w60

ある。この  f(t) = \delta(t - u^{2k}) |u^h| b(u) に「メリン変換」という変換をして複素関数 F(z)にすると、F(z) のそれぞれの極の位置と位数がゼロに近づく速さに対応する。

f:id:cookie-box:20190101155733p:plain:w60

メリン変換? フーリエ変換なら聞いたことがありますが…。

f:id:cookie-box:20190101160814p:plain:w60

フーリエ変換f(t)e^{ixt} をかけて  t \in (-\infty, +\infty)積分する変換だけど、メリン変換は f(t)t^z をかけて  t \in [0, +\infty)積分する変換だね。メリン変換は、この定義から f(t) = t^{\lambda - 1} (- \log t)^{m-1} の変換が F(z) = \displaystyle \frac{(m-1)! }{(z + \lambda)^m} であることが容易にわかる。「f(t) のゼロに近づく速さ」と「F(z) の極の位置」が対応しているよね。つまり、もしある f(t) のメリン変換  F(z) に極が複数あったら、 f(t) をゼロに近づけたとき支配的になるのは F(z) の実部が最小の極  \lambda_0 に対応する成分だ。 {\rm Re}(\lambda_0) < {\rm Re}(\lambda_1) だったら  t^{\lambda_0 - 1} (- \log t)^{m_0-1} よりも  t^{\lambda_1 - 1} (- \log t)^{m_1-1} の方が速くゼロに近づくからね。

f:id:cookie-box:20190101155733p:plain:w60

メリン変換からそんなことがわかるんですか…。

f:id:cookie-box:20190101160814p:plain:w60

 f(t) = \delta(t - u^{2k}) |u^h| はメリン変換すると  u^{2kz + h} になる。いまパラメータの取りうる範囲は  u \in [0,1]^d の超立方体としている。 u^{2kz + h} をこの超立方体で積分するとどうなるだろう。

f:id:cookie-box:20190101155733p:plain:w60

えっと、 u^{2kz + h} = u_1^{2k_1 z + h_1} u_2^{2k_2 z + h_2} \cdots u_d^{2k_d z + h_d} なので成分ごとに積分すればいいですね。となると結局、 \displaystyle \prod_{j=1}^d \left( \frac{1}{2k_j z + h_j + 1} \right) になるのではないでしょうか。

f:id:cookie-box:20190101160814p:plain:w60

じゃあ、その実部が最小の極はどの点で、その点での位数はいくつになる?

f:id:cookie-box:20190101155733p:plain:w60

えっ? まず、この複素関数が定義されない点は分母がゼロになる  \displaystyle z = \frac{h_j + 1}{2k_j} ですね。だから実部が最小の極の位置は  \displaystyle \frac{h_j + 1}{2k_j} の最小値(実軸上)ですよね。そこでの位数は、  \displaystyle \frac{h_j + 1}{2k_j} が最小値をとる j の個数ですね。

f:id:cookie-box:20190101160814p:plain:w60

それは実対数閾値 \lambda とその多重度 m そのものだね。

f:id:cookie-box:20190101155733p:plain:w60

あっ…。

f:id:cookie-box:20190101160814p:plain:w60

章末問題【2】に戻ろうか。確率モデルに対して真の分布が正則であるときの \lambdam を考えるには、K(w) = w_1^2 + \cdots + w_d^2 の場合を考えれば十分だ。もちろん K(w) はこの形をしているとは限らないけど、この定数倍で上と下から抑えられる。定数倍で上と下から抑えられるのに極の位置と位数が違ったらおかしなことになるからね。

f:id:cookie-box:20190101155733p:plain:w60

なるほど、ではその K(w)特異点解消をすればいいんですね。…この本は特異点解消の具体的な手続きを教えてくれてはいませんよね?

f:id:cookie-box:20190101160814p:plain:w60

まあでも「1本目の座標軸を変えずに、2本目の座標軸を1本目の座標軸からの比にすればよい」みたいなこと例14でやってるからね。2つ目以降の成分から無理やり1つ目の成分を絞りだしているようなものだよね。

f:id:cookie-box:20190101155733p:plain:w60

その説明は雑ですね…。まあしかし、w_1 = u_1, \; w_2 = u_1 u_2, \; w_3 = u_1 u_3, \cdots とすれば  K(w) = u_1^2 ( 1 + u_2^2 + u_3^3 + \cdots) となって、さらに例14と同じ変換をすれば特異点解消は達成できますね。この変換  g(u_1, u_2, \cdots, u_d) = (u_1, u_1 u_2, \cdots, u_1 u_d)ヤコビアンは、

 \displaystyle \left| {\rm det} \begin{pmatrix} 1 & u_2 & \cdots & u_d \\ 0 & u_1 & \cdots & 0 \\ \vdots & \vdots & & \vdots  \\ 0 & 0 & \cdots & u_1 \end{pmatrix} \right| = |u_1|^{d-1}
です。なので、 t = u_1^2 ( 1 + u_2^2 + u_3^3 + \cdots) の密度をメリン変換すると u_1^{2z + d - 1} が出てきて、これを  u_1 \in [0, 1]積分すると  \displaystyle \frac{1}{2z + d} ですね。極はここだけです。確かに、 \lambda = d/2 m = 1 ですね…。

f:id:cookie-box:20190101160814p:plain:w60

まあ例14がまさに d=2 の例だけど  \lambda = 1 m = 1 になってるしね。

この箇所はこれで終わり