も確率ベクトルで です。 は行列です。 は平均 で分散共分散行列が の多変量正規分布にしたがうノイズで とは独立です。
いまある が観測されました。この の下での(=事後分布の) の分散共分散行列はどうなりますか?
別に以上でいいんですが、上の方法は終始 の精度の世界で考えていて、 の分散に何があったのかわかりにくいものになっています(?)。そもそも が観測されたら の分布がどうなるのかというのは の同時分布を考えるのが正攻法であるはずです(?)。なのでそれでやってみます。また、ここでは(※)の箇所で後述の補題を利用します(条件付き共分散をとる方法は色々あると思いますが、この補題は直接的に条件付き共分散はこれですというものなので利用しました。これは行列をブロック単位で UDL 分解するのと等価です)。
多変量正規分布のモーメント母関数は なので、 の同時分布のモーメント母関数は以下のようになる。
よって の同時分布は分散共分散行列が の多変量正規分布である。このとき の分散共分散行列 は の右下 ブロックに対するシューア補行列(※)に他ならず、したがって である。
正方行列 を が正方行列になるように と区分けする。このとき も も正則ならば、 も正則で の左上 ブロックは になる。この を の に関するシューア補行列とよぶ。
- LDU 分解すると以下の が の共分散:
- UDL 分解すると以下の が の共分散:
なお、方法1.の結論は で、方法2.の結論は で、なんか違ってみえますが、以下の Sherman-Morrison-Woodbury の公式よりこれらは等しいです。というかむしろ方法1.と方法2.で事後分散共分散行列を求めると Sherman-Morrison-Woodbury の公式が証明できることになります(まともな証明は先の記事にありますが、LDU 分解と UDL 分解の逆行列の成分比較によります)。
では と のどちらの表現が便利なのかというと、逆行列が取られている行列が前者は 、後者は なので、 が大きければ前者、 が大きければ後者が逆行列の計算コストが低いはずです(なので推定対象の状態空間が高次元の場合は方法1.で前者を求めてから Woodbury の公式で後者にしましょうとかいわれると思います)。
それで、どうして方法1.と方法2.で逆行列をとる行列のサイズに違いが出てくるのか気になるわけですが、トートロジカルですがどこの行列が正則であることを利用しているかが違うはずです。
- 方法1.: ベイズの定理を使う場合だと、終始「密度の積(精度の和)」で考えるので逆行列を取るのは最後の仕上げになり、 の精度行列 = 行列の逆行列をとることになります。
- 方法2.: 同時分布の分散共分散行列を出してから補題(シューア補行列)を利用する場合だと、この操作で直接利用するのは同時共分散行列の右下 ブロックが正則であることです。
- シューア補行列 が存在するならば であることを示すときに利用するのは が正則であることだけです。
- なお、同時共分散行列の LDU 分解の と成分比較することもできます。この場合は左上 ブロックの が正則であることを利用することになり、また、出てくる答えが方法1.と同じになります(方法2.の の各ブロックを に代入)。なので、同時共分散行列を経由することではなく、そこから如何に の共分散行列をとるかが逆行列のサイズを決めています。
方法1.
「 の事前共分散行列」
↓ ベイズの定理
「 の事後精度行列」
↓ 逆行列 ― 精度行列全体 が正則であることを利用
「 の事後共分散行列」
方法2.
「 の事前共分散行列」
↓ の同時分布のモーメント母関数
「 の同時共分散行列」
↓ 補題(シューア補行列)― 同時共分散行列の右下 ブロックが正則であることを利用
「 の事後共分散行列」
まとめると(まとめではない)、 の同時共分散行列を とおくとベイズの定理は精度行列 の UDL 分解( の LDU 分解)の左上ブロックをとることに他ならず、それに Woodbury の公式を適用すると の LDU 分解( の UDL 分解)の左上ブロックになるので正則を仮定するブロックが左上から右下に切り替わる、という感じがします(無論ベイズ更新の文脈ではどちらも正則でないと困るのですが正則であることを明示的に利用するのがどちらなのかが切り替わる)。