以下の本を読みます。キャラクターは架空のものです。解釈の誤りは筆者に帰属します。おかしい点がありましたらコメント等でご指摘いただけますと幸いです。
- 作者: 渡辺澄夫
- 出版社/メーカー: コロナ社
- 発売日: 2012/03/01
- メディア: 単行本
- 購入: 1人 クリック: 4回
- この商品を含むブログ (8件) を見る
- 前回のノートでは確率と確率密度がごっちゃになっているところがあります。事象 が起きる確率 に対して は事象 の選択情報量ですが、確率変数 の確率密度関数 に対して は選択情報量とはよばないと思います。よばないと思いますがよび方に困るので、以下「選択情報量のような量」とよんでいます(自由エネルギーのことなんですが、自由エネルギーって何っていうことばとして)。
- そんな変な呼び方をしなくても「負の対数尤度」などとよべばさしつかえはないですが、個人的にそうよぶとそれって大きいほどどういう意味だっけというのがなんかすぐわかんないので採用しません。
前回読んだ1~10ページの内容をふりかえります。この本はベイズ推測について解説する本であり、ベイズ推測とは何かというのは 1.1 節に定義がありました。つまり、「ベイズ推測する」とは
しかし、「~だろうと考える(★)」というだけでは、「じゃあそう考えれば?」という話です。この本で私たちが学ぶのは、「『~だろうと考える(★)』というのは結局どういうことなのか」でしょう。
しかし「よい推測」とは何かという問題があります。私たちは現実に推測を行う場面で真の分布を知り得ないので、真の分布にどれだけ近づけたかを確認することはできません。しかしそれでも、 に拠らない数学的な法則が存在して、推測の「限界」を議論することができるということですが…。1章の続きではその足掛かりとして、「自由エネルギー 」と「汎化損失 」が定義されました。
- 自由エネルギー は事前分布 と確率モデル と逆温度 とサンプル による量で、分配関数 の対数の温度倍のマイナス1倍です。 のとき は周辺尤度(その確率モデルでその事前分布にしたがうあらゆるパラメータの下でサンプル が観測される確率密度) の対数のマイナス1倍に等しいです。確率密度を確率のようなものと思えば、 は「その確率モデルでその事前分布にしたがうあらゆるパラメータの下でサンプル が観測されるという事象の選択情報量のような量」です。これは、 をあらゆるサンプル の現れ方について平均すると(= で平均すると)、 と の交差エントロピーになります。つまり、「真の分布」と「事前分布で平均した確率モデル」がどれだけ似ているかを測る指標になりそうです。もっとも、知り得ない で平均するということは不可能なので議論が必要ですが…。
- 汎化損失 は真の分布 と予測分布 の交差エントロピーです。しかし、やはり知り得ない で平均するということは不可能なので、経験損失 から見積るということですが…。 は「予測分布 の下で各サンプル が観測される事象の選択情報量のような量の全サンプル平均」です。 は全サンプルからつくった櫛形の( 本のデルタ関数が立った)経験分布と予測分布の交差エントロピーととらえることもできるかもしれません。
右辺第1項と右辺第2項は丁寧にかくとこうかな。
…なるほど、もし仮にその事前分布と確率モデルの下で を観測する事象の選択情報量も を観測する事象の選択情報量も常に変わらないというなら、 個目のデータには全く「新たな情報」「意外さ」がない、 を観測したらそれがどんな であっても次に観測される が確実にわかってしまう、そんな状況だね。そんな状況では汎化損失の期待値もゼロだ。確実に がわかるんだから誤差は生じない。でも、 個目のデータ に僅かでも「新たな情報」があれば、その「新たな情報」はベイズ推測に誤差を生じさせる。 を観測するまで得られない情報がある状況なんだから、完璧な推測はできない。汎化損失の期待値はゼロにならない。…といったけど、正確には汎化損失は「誤差」って感じじゃないね。KL情報量じゃなくて交差エントロピーだから、完璧に予測分布を にしても汎化損失 はゼロにならない。 のエントロピー(連続分布なので微分エントロピー)が理論下限だ。
え、えっと? ともかく、何が何の変数で、何が確率変数なのかややこしいですね。改めて整理します。10ページの上・中・下3箇所の数式は、それぞれ「確率密度」「選択情報量のような量」「交差エントロピー」にみえて、2ステップ更新されたようにみえるんです。でも、右辺は2ステップなのですけど、左辺は3ステップあったのですね(中から下への更新に、先に で積分して、次に残りの変数で積分するという2ステップの更新が含まれています)。つまり、右辺(上側の表)と左辺(下側の表)でそれぞれ主人公が以下のように交代しています。
事前分布で平均した確率モデルの下でサンプル が観測される事象の確率密度 or サンプル の下での事前分布で平均した確率モデルの周辺尤度( により確率的に変動する確率変数) | |
事前分布で平均した確率モデルの下でサンプル が観測される事象の選択情報量のような量 or サンプル に対して事前分布で平均した確率モデルを仮定したときの系の自由エネルギー( により確率的に変動する確率変数) | |
「真の分布」と「事前分布で平均した確率モデル」の交差エントロピー or 真の分布の下でのあらゆるサンプル の出方に対する、事前分布で平均した確率モデルを仮定したときの系の自由エネルギーの期待値(確率変数ではない) |
予測分布の下で点 が観測される事象の確率密度( により確率的に変動する の確率密度関数) | |
予測分布の下で点 が観測される事象の選択情報量のような量( により確率的に変動する の確率密度関数) | |
点 の真の分布と予測分布の交差エントロピー( により確率的に変動する確率変数) | |
真の分布の下でのあらゆるサンプル の出方に対する、点 の真の分布と予測分布の交差エントロピーの期待値(確率変数ではない) |
…汎化損失と自由エネルギーにある関係が成り立つのはわかりました。11ページは、なぜ確率密度の対数のマイナスをとるのかという話をしていますね。…これ、「確率密度は の形であることが多いので を取りたいから」「 はエネルギーと実感できるから」って、どちらも突拍子もなく感じるんですが。なぜ確率密度がそんな形をしていることが多いなどといえるんです? だいたいどこからエネルギーが出てきたんですか? 自由エネルギーとはそのような名前なのだと割り切っていましたが、ここでは紛れもなく物理のエネルギーの話をしていますよね?
まあ確率密度が の形であるかどうかとエネルギーの登場はおいといても、確率 を対数のマイナス1倍をとって として「選択情報量」というものさしでみると「大きいほどめずらしい、それが起きたと知ったときの価値が高い出来事だ」って何となくわかりやすかったよね。こっちのものさし方が推測のよさを測るのに感覚に合ってそうだ。もちろん確率 のままでも推測の誤差を議論することはできると思うけど…でも、元々よく起きる出来事か、レアな出来事かで確率を1%誤る重大さって違う気がするよね。ある年に名古屋では年間に100日くらい雨が降って、10日くらい雪が降ったらしい。真の値より10日多めに110日雨の予報を出してもたぶんあまり怒られないけど、真の値より10日多めに20日雪の予報を出したらたぶんクレームがくるだろうし天気予報を信用してもらえなくなるよね。
いや、雪の日は実際タイヤチェーンなどさまざまな準備が必要ですから、事象自体が誤りの重大さに関係していてその喩えはあまり適切ではないのでは…まあ雰囲気はわかりますが。ただ、それなら確率の誤差ではなく誤差率をみるということもできると思いますが…。
率って扱いにくいし、誤差が小さければ誤差率は対数差分で近似できるしね。 がゼロに近ければ だよね。
なんと、確かにそうなりますね。
あと確率密度が の形かってのも、何か物理法則にしたがうデータだったらそうなる見込みがあるからね。その辺は統計力学の話になるけど。
やっぱり物理の話じゃないですか…まあ にさまざまな解釈が与えられるというのはいいです。次節に進みましょう。…事後分布や予測分布を「解析的に計算できない」ことが多い? 「解析的に計算できない」って何ですか? (1.5) 式や (1.8) 式ってそんなに何か困難な要素があるんですか??
「解析的に解けない」っていうと解が既知の演算や関数でかきあらわせないって意味だね。「5次方程式は一般的に解けない」というのは一般の係数の加減乗除べき根で方程式の解をかきあらわすことができないって意味だし。ただここでいう既知の演算や関数が何かはまだわからないかな。まあこの節に「計算できる例」があるってことなんだからそこから推し量ることはできるんじゃない?
そうですね、この節の例を計算してみましょう。 で ということです。 と の制約はわかりませんが確率モデルが積分できることは確かですね。このとき、分配関数及び事後分布を計算すると、
これは…ハイパーパラメータ が更新された形になりましたね。
…確率モデル と事前分布 の積が の形にかける( は に依存しない係数)なら になって事後分布が になるってことか。逆に事後分布をこの形にしたいなら…やっぱり と の積が の形にかけないといけない。 と の積の への依存性はこの形でないといけない。「事前分布を事後分布にする」ことを「ハイパーパラメータ を更新する」形で達成することは、以下を満たす確率モデルと事前分布を選ぶことと同じように感じる。
「解析的に解ける」というのは結局「パラメータの更新で済む」という意味だったんでしょうか….? もちろん、「パラメータの更新で済む」ような確率モデルと事前分布を選ばなければならないという意味ではないと14ページにありますね。あくまで人間の都合です。…1.3節はさまざまな推測方法ということですが…最尤推測って のベイズ推測なんですか??
> 一般の場合にも最尤推定値にたつデルタ関数っていうのを示すのはどうやるのかすぐ思いつかない
以下のような感じな気がします。
https://twitter.com/CookieBox26/status/1125552313572020224
17ページの (3) にある場合にベイズ推測と最尤推測が同じといえるのかいえないのかといった気になることがかいてありますね…まあいまはとばしますか。18ページからは解析的に解ける場合で数値実験しているようですね。…節変わって23ページに、「確率モデルが仮のものである場合」とありますね。もちろん確率モデルがわかっている場合とわかっていない場合とあるのはわかるんですが、だから何を言いたかったんでしょうか…。
「1000人の試験結果のときと100万人の試験結果のときで推測されるパラメータがずれていてもいい」って感じに読めるね。仮に100万人の試験結果が正規分布を 個混合した分布で上手くフィッティングできても「中学生全体が 個のグループに分けられると結論されたのではない」というのは、 は「100万人の試験結果の解析に有用なパラメータ」に過ぎないってことだね。
じゃあ、中学生全体の試験結果が何個にクラスタリングされるかを研究することはできないってことですか?
やっちゃいけないのは、特に根拠なく混合正規分布を仮定して、100万人の試験結果から推測した でもって「中学生というものは 個のグループに分けられます」と結論付けることだ。「この100万人の中学生は」と付けるなら間違ってはないだろうけどね。本当に「中学生は 個のグループに分けられるのではないか」という仮説を検証したいなら、きっと人数を増やして収束していくかとか確認すべきで、現実にはそこで頓挫するんじゃないかな。