以下の本を読みます。キャラクターは架空のものです。解釈の誤りは筆者に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。
- ベイズ統計の理論と方法: ノート1: 主要な量の定義。
- ベイズ統計の理論と方法: ノート2: 指数型分布の場合の具体的な事後分布とか。
- ベイズ統計の理論と方法: ノート2.5: コイン投げの例とか。
- ベイズ統計の理論と方法: ノート3: 1章の章末問題と、真の分布と確率モデルの関係。
- ベイズ統計の理論と方法: ノート4章その0.1: 開集合とか。
- ベイズ統計の理論と方法: ノート4: キュムラント母関数。
- ベイズ統計の理論と方法: ノート4章その1: 多様体の導入だけ。
- ベイズ統計の理論と方法: 4章の章末問題【2】(実対数閾値とその多重度)
…データから混合指数型分布 を推定するのに、
- 「 の目が出る確率が であるようなサイコロ」
- 「 個のデータ を受け取ったとき、パラメータ は何であったろうか」という問題を
- 「 個のデータ を受け取ったとき、パラメータ と各データのサイコロの目 は何であったろうか」という問題に
…まずサイコロを導入した場合はどうなったの?
えっと、そもそも、 という形で表される目標分布を、独立な分布の積である試行分布 で(カルバック・ライブラー情報量 の意味で)最もよく近似したとき、 を の平均場近似とよぶのですね。
それではどのような が の平均場近似なのか考えると、これらのカルバック・ライブラー情報量は具体的に、
となりますから(ただし、 は自由エネルギーです)、これを最小化する が の平均場近似ということになります。等号成立は のときですが、いま、試行確率分布は成分どうしが独立という制約がありますし、この等号が達成できる保証はありません。ところで、上式の下から2行目の、試行分布に依存しない を除いた部分を、平均場自由エネルギー とよぶとのことです。もし試行分布が目標分布を実現できれば真の自由エネルギーに等しくなる量ですが、一般的には真の自由エネルギー以上になる量ですね。最小化すべき目的関数の別表現といった感じがします。それで、もし が最小値になっているならば、この最小化問題のラグランジュ関数
の に関する1次の変化分が恒等的に になっているはずです。このことから、
が要請され、これを自己無矛盾条件とよぶと。それで自己無矛盾条件を満たす試行分布をみつけよということですが…一般にラグランジュ関数の停留点は最小点である保証はないのであくまで最小点であることの必要条件になると思うんですが、この場合も極大点であることはないんでしょうか。そもそも必ず最小点があるんでしょうか。テキストの雰囲気的には「自己無矛盾条件を満たす試行分布の中には必ず平均場近似はある」といった感じですが。
あと、平均場自由エネルギー も何がエネルギーなのかわかりませんね。いうほど通常の自由エネルギーも何のことかわかりませんが。
自由エネルギー って、確率分布が の形でかかれていることを前提としていて、このとき点 の選択情報量(本当は は確率じゃなくて確率密度だから選択情報量とはいわないけど)は だけど、「もし正規化を忘れて選択情報量を と考えてしまうと だけ底上げされているよ! だけ差し引く必要があるよ!」という量なのかな。 によらずいつも から が差し引かれているよね。
選択情報量を「その出来事を知らされたときの驚きの量」みたいに捉えるなら、「必ず起きることを知らされたときの驚きの量をゼロにするために差し引くべきオフセット」が自由エネルギーだといえるかもしれない。じゃあ確率分布 によるエンコードで同じ点 の選択情報量を測ったものはというと、 に比べて だけ差し引かれたものになっているよね。トートロジカルだけど。
この差し引くオフセットは に依存しているけど、確率分布 で平均すると平均場自由エネルギー になるね。だからやっぱりこれも「驚きの量から差し引くべきオフセットの平均」になっている。このときの驚きの量のエンコーディングは最適ではないかもしれないけど。
ただ「平均場自由エネルギー」を「驚きの量から差し引くべき平均的なオフセット」と捉えても、「なぜ平均場自由エネルギーを最小化しなければならないのか」に示唆は得られないな…。いまは「カルバック・ライブラー情報量」つまり「真の驚きの量からの平均的なムダ」を最小化したいから、それと定数 ずれているだけの「(仮の)驚きの量から差し引くべきオフセットの平均」を最小化したいはずだ。エンコードがずれているほど差し引くべきオフセットは平均的にかさむからね。
だからその説明で誰かに伝わりますかね…? まあそれで冒頭の推定をするんですが、つまり、パラメータ の分布 を更新していくわけです。
- パラメータ の分布はディリクレ分布 ですね。ハイパーパラメータ を更新していくことになります。ディリクレ分布は 面あるサイコロの各目が出る割合を生成する確率分布ですね。ある割合における確率密度は「各目が 回ずつ出たときにその割合であった確率密度」といえます。
- パラメータ の分布は です。12ページでやった指数型分布の共役な事前分布ですね。ハイパーパラメータ を更新していくことになると思います。
…この手続きで、「謎の確率変数 」と「交互の更新」がしれっと導入されましたが、そもそもこんなことをしてよいのでしょうか? 「謎の確率変数 」は、いわば各データの実家が何番目の山かというようなものになっていますが、本当はどの山が実家とかないでしょう? そこには山の重なりのような分布があるだけで、各データがどの山からきたのかなんて人間の妄想に過ぎないはずなんです。それに、その「各データがどの山からきたのか」と「ハイパーパラメータ」を交互に更新するというのも、直感的には解に向かっていきそうですが、何の根拠があってそんなことをしているのか…。
「こんなことをしてもよいのか」どうかは、「何をするためにそうしたのか」によるだろう。今は何をしたいんだっけ。
何をしたいんだっけって、データから混合分布を推定したいんですよ。
推定するって何?
まあ解析的に求まる例ではないんだよね。だからモンテカルロ法で解くとか、別の方法で解っぽい何かを探すことになる。5.2節の「平均場近似」はその「解っぽい何かを探す別の方法」だから、「4ページで定義した事後分布で確率モデルを得ること」はもはや放棄されている。「こんなことをしてもよいのか」というよりは「こうすることにした」んだね。…といっても、「だからどうしてそうすることにしたのか」の回答にはなっていないな。いま解析的には解けないけど「パラメータ の分布をよりよさそうなものに更新する」ことを達成したい。だから次善の策として平均場近似では別の分布でこう近似することにした。
- 本当の事後分布とのカルバック・ライブラー距離の極小点を目指すことにする。
- 極小点が満たすべき条件を更新式として利用できるようにするために、パラメータを2グループ(以上)に分けて、こちらのグループの分布を固定してあちらのグループの分布を更新する → 今度はさっき固定していたグループの分布を更新する → …という繰り返しができるようにする。この目的のため、パラメータの分布を独立な分布の積とする。
なるほど、だから「謎の確率変数」が導入された…説明になっていないんですが。「交互の更新」の方にはそれで説明が与えられましたが。
「謎の確率変数」の導入はそういう背景が…しかし、「じゃあこういう確率変数を導入しよう」というのも突飛な気がしますが…。
いうほど自然に導入できますかね?? それに、クロスタームを消してしまうということはそれだけ正しいやり方を損ねているでしょう? 「各データの実家の山は一つまで」というのも結構大胆な仮定にみえるんですが、それが心配というか…。