以下の本を読みます。キャラクターは架空のものです。解釈の誤りは筆者に帰属します。おかしい点がありましたらコメント等でご指摘いただけますと幸いです。

- 作者: 渡辺澄夫
- 出版社/メーカー: コロナ社
- 発売日: 2012/03/01
- メディア: 単行本
- 購入: 1人 クリック: 4回
- この商品を含むブログ (8件) を見る

今更!?

そこでこの本を読みたいと思うんです。1.1 節ではまずベイズ推測を定義するとか。この本では 個の点を集めたもの、つまり、サンプルを
と表記するようですね。
の
乗にみえるので注意しましょう。サンプルの各点は
の元です。そして、サンプル
をそれぞれ確率分布
に独立にしたがう
個の確率変数の実現値と考えます。この
を真の分布とよび、サンプル
から真の分布
を推測することを統計的推測とよぶということです。それで私たちは統計的推測をしたいのですけど、この本で学ぶ「ベイズ推測」という統計的推測の方法では、統計的推測をするのにつかうパーツとして確率モデル
と事前分布
も用意しておく必要があります。この
はパラメータです。確率モデルや事前分布の選択にも議論はありますが、とりあえず三つ組
は与えられていることにするということです。
…現実にベイズ推測をするときは真の分布 を知らないはずなので、「与えられている」といわれるとややこしいですね…。この本でまずやりたいことは、「こういう真の分布からのサンプルを得ていてこういう確率モデルを仮定しているというシチュエーションで、事前分布を事後分布にどう更新するべきなのか」という理論の確立でしょうから、真の分布を考えないと理論が構築できないということと思いますが…以下のイメージです。細かいですしどうでもいいですが…。
入力 | 出力 | |
---|---|---|
ベイズ推測器をつくる器 | ||
ベイズ推測器 |



この本にも出てくるのかもしれないけど、イメージでいうと…伝統的な統計は頻度論的ともいわれるように、確率というものを「無数に試行したときそれが起きる頻度」だと考えているから、例えばサイコロの各目の出る確率を推測するとき、もしまだ1回も投げていないなら、その確率分布についてまだ何もわからない。100回投げたらその結果に基づいた確率分布がパラメータの何らかの推定量によって推測できるけど、「もしかしたらパラメータはもうちょっと大きいかも/小さいかも」というぶれが生じる要素はない。しいていうなら、「サンプルの出方が違ったとしても求まる確率分布はずれない?」という心配はあるけど、そういうときはパラメータの推定値に幅をもたせて、どんなサンプルの出方でも95%カバーできるというようにする(信頼区間)。これはサンプルがぶれると考えているのであって、確率分布がぶれると考えているわけじゃない。…他方、ベイズ統計では確率とは「それがどれだけ起こりそうだと考えているかの信念」だから、「まだ1回もサイコロを投げていないけど、1の目の出る確率は0.2だと思う」という信念が事前にあるということがありうるし、確率分布がどんな信念をどれだけもっているかによって分布していい。そしてそれを事後分布に更新する。伝統的な統計に比べてベイズ統計では事前分布を仮定できるというのができることとしては最大の違いだし、同時に、そんなの仮定していいのかっていう不安ポイントでもあるけど、事前分布の影響はすぐなくなっていくという反論もあるよね。あと事前の信念を入れ込めるという点の他に、ベイズ推定はパラメータを分布として扱うから区間推定や検定が素直とも聞くかな。伝統的な統計ではパラメータは分布しないから「そのパラメータは考えにくい」っていういい方はできなくて、「もしそのパラメータだとすると手元のサンプルが得られる確率がかなり低い」っていういい方をする必要があって、一々サンプルの出方の分布の話にしないといけないのが回りくどいっていわれるよね。もちろん、ベイズ統計が考えやすくても取り扱いを誤って事後分布がおかしなことになっていたら踏み外した推測になっちゃうけど…。

なるほど。まあとにかく事後分布が知りたいわけです。それですが、正の実数である を逆温度として? 逆温度とは? とにかく逆温度
の事後分布を以下で定義するとのことです。

まだ は意味もわからず天から降ってきただけだからね?
がどのような仮定の下でどのような性質をもつか議論しなきゃ、ベイズ推測をするってどういうことなのか全然わからないよ?

確かに。6ページの注意5は興味深いですね。究極的には真の分布を知り得ないのに、よい予測などあるのかということに対する不安があります。しかし、三つ組 に拠らない数学的な法則が存在するのだと続きますね。だから限界や誤差について議論できると。伝統的な統計でいうクラメール・ラオの下限のようなものがあるということなんでしょうか。

まず1.2節で、どのような量が予測のよさを測る指標となるのかを扱うみたいだね。

早速読みましょう。というか1.2節の冒頭から「自由エネルギーと汎化誤差が最も重要な量」とありますね…。事後分布の式の分母に出てきた を分配関数、特に
のときの
を周辺尤度というそうです。
は正規化定数ですよね。周辺尤度
は(その確率モデルでその事前分布にしたがうあらゆるパラメータの下で)サンプル
が観測される確率ですね。
は
について積分すると
になるということですが、あらゆるサンプルの出方について積分すると1になるのは当然ですね。なお、
は
の確率分布であることを強調したいときは
ともかくようです。そして、
を自由エネルギーとよぶということです。自由エネルギー? これが重要な量だといっていましたね。どう重要なんでしょう?
のときで考えれば、周辺尤度
が大きいほど自由エネルギーは小さくということになりますが…。しかし逆温度、分配関数、自由エネルギーなど、聞き慣れない言葉が目立ちますね…。

統計物理の言葉だね。ベイズ推測に関する考察ではパラメータ の事後分布からその推測がどんな性質をもつのか知りたいけど、統計物理でも系の微視的状態
の分布(正準分布)をもとに巨視的な性質を知りたいから、形式的に同じ位置付けになる概念が色々あるんじゃないかな。だから言葉を借りてるんだと思う。

断りなく借りてこられると面食らうんですが…。8ページの続きには自由エネルギーがどう重要なのかがありますね。先に文字を定義すると、真の分布のエントロピー 、サンプル
に対する経験エントロピーを
とします。これらは統計学でもよく聞くエントロピーですね。真の分布に対するものか経験分布に対するものかが違います。これらをつかうと
が次のように変形できます。経験エントロピーが出てくるんですね。

交差エントロピーだよ。 は確率モデル
の下で事前分布
にしたがうあらゆる
の下で
が観測される対数尤度だよね。これを真の分布
の下での
の現れ方に対する平均を取るという操作は、
と
の交差エントロピーを取ることに他ならないよ。交差エントロピーはある分布の対数尤度を別の分布で平均した形式をしているからね。情報理論の言葉でいうなら、真の分布
においてめずらしい
には大きなビット長
を、めずらしくない
には小さなビット長
をわりふるように
を決めたい。もちろん
が最適だけど。おそらく最適からは少しずれている
というエンコーディングの下での平均ビット長が
で、最適でないことによって生じたビット長のはみ出しの平均が (1.19) 式第2項のカルバック・ライブラー情報量だね。ついでにいえば、分配関数とはいま何とかしたい確率分布で、自由エネルギーとはその確率分布の選択情報量だったわけだ。

…いやでも、 は「確率モデルと事前分布から推測された
の確率分布(9ページ)」ですよね?
に近づけたいのは
なのではないのですか? それに、実問題では
しか手に入らず
は手に入らないとありますね。それはそうですね。真の分布にしたがうあらゆる
について平均を取れるなら、それはもう無数にサンプルを得られているのと同じですから。推測しようとしている分布から無限にサンプルが得られたらそれはもうおかしいというか推測する必要ないですね。

はベイズ推測の結果
そのもののよさではなくて、 確率モデルと事前分布がどれだけ適切かという量のような気がするね。

続く 1.2.2 節では、推測のよさの指標にまた別の量を導入していますね。汎化損失 と経験損失
とのことです。汎化損失
は
と
との交差エントロピーですね。これが小さいほどよい推測というのは納得できます。しかし、
は知り得ないので現実に
を求めることはできませんね…。経験損失
というのは…これは、情報理論の言葉でいうなら、
という予測経験分布によるエンコーディングが個々のデータに割り振るビット長(情報量)のデータ毎の単純な平均ですね。情報量の平均といってもエントロピー(平均情報量)ではないです。エントロピーであったら
のように単純平均ではなく
自体で平均しなければなりませんから。しかしこの
にどんな意味があるというのでしょうか。予測分布
が、サンプル内の各点での確率密度が平均的に小さいものになっていたら
は大きく、逆にサンプル内の各点での確率密度が平均的に大きいものになっていたら
は小さくなりますが。
が小さいほどよいというのであればサンプル点の場所にだけ確率密度が存在するような櫛形の予測分布がよいということになってしまいますよね…。

が小さいほどよいというのではなくて、
は
の推測につかえるとかいてあるよ。78~79ページあたりの話かな。

そういうことですか。しかし、「何のため」というのがなくて先に定義がどんどん導入されるので雲をつかむようですね…。10ページの続きには、自由エネルギーと汎化損失の関係とは?とありますね。10ページの中ほどにある式は、これは予測分布の下での未知の点 の確率密度ですね。順を追うと、
- 予測分布
の下で
という出来事に割り振られるビット長は、
確率モデルと事前分布
の下で
という出来事群に割り振られるビット長から、
確率モデルと事前分布
の下で
という出来事群に割り振られるビット長を差し引いたものに等しい。