雑記： Schur 補行列と Sherman-Morrison-Woodbury の公式とカルマンフィルタとガウス過程回帰の整理

公式の証明はありません（参考文献の1つ目に詳しいのでそちらをご参照ください）。何か問題点がありましたらご指摘いただけますと幸いです。

参考文献

Sherman-Morrison-Woodburyの公式 (Schur補行列) - いんふらけいようじょのえにっき
パターン認識と機械学習上 (ベイズ理論による統計的予測) | C.M. ビショップ, 元田浩, 栗田多喜夫, 樋口知之, 松本裕治, 村田昇 |本 | 通販 | Amazon（82～85ページ）
パターン認識と機械学習下 (ベイズ理論による統計的予測) | C.M. ビショップ, 元田浩, 栗田多喜夫, 樋口知之, 松本裕治, 村田昇 |本 | 通販 | Amazon（17～19ページ）

（2018-12-15 追記）先にこの記事は何なのかというと、カルマンフィルタとガウス過程回帰は、どちらも観測にノイズがのっていたり何かを予測したかったり解くときにブロック行列に関する公式が出てきてちょっと似ている気がすると思います。何を知りたくて、その知りたいものは何にしばられているのかをまとめるとこうなると思います。

	カルマンフィルタ（のフィルタ操作）	ガウス過程回帰
知りたいこと	直接観測できない「状態」が、いまどう分布しているか知りたい。 $p(x_t\|y_{1:t})$	空間内の「目標変数」が、それをまだ観測していないある点でどう分布しているか知りたい。 $p(t_{N+1}\|t_{1:N})$
知っていること	いまの観測を知らない下で予測されるいまの状態の分布は知っている。 $p(x_t\|y_{1:t-1})$ 状態がわかっている下で得られる観測の分布は知っている。 $p(y_t\|x_t)$ いまの観測は知っている。 $y_t$	何も知らない下で空間内のいくつかの目標変数がどう分布するかは知っている。 $p(t_{1:N+1})$ いくつかの点での目標変数は知っている（訓練データ）。 $t_{1:N}$
やること	$p(x_t\|y_t) \propto p(y_t\|x_t)p(x_t\|y_{1:t-1})$ を計算する（多変量正規分布の積の平方完成）。 → Sherman-Morrison-Woodbury 公式を使用。	$p(t_{1:N+1})$ を $t_{N+1}$ のみの関数にする（多変量正規分布で一部変数を固定する形の平方完成）。 → Schur 補行列を使用。
補足	結局いまの状態の分布は、いまの観測を知らない下でその状態である確率と、その状態からいまの観測が得られる確率の積に比例する。	未知の点における目標変数の分布は、すでに知っている点とのカーネル関数にしばられている（目標変数 $t_n$ は $t_n = y(x_n) + \varepsilon_n$ であり、 $y(x_n) = w^{\top}\phi(x_n)$ であり、 $p(w)=N(0, \alpha^{-1}I)$ という仮定をおいている。そのため、何も知らない下で、 $y(x_1), \cdots, y(x_N)$ は行列の各成分が $\alpha^{-1}\phi(x_n)^{\top}\phi(x_m) =\alpha^{-1}k(x_n, x_m)$ となる共分散行列をもつ多変量正規分布にしたがう）。
互いに相手っぽく解くには	$p(x_t, \, y_t\|y_{1:t-1})$ を $x_t$ のみの関数にする（同時分布を出すのは面倒。もっとも、普通に解くのも面倒）。	$p(t_{N+1}\|t_{1:N}) \propto p(t_{1:N}\|t_{N+1})p(t_{N+1})$ を計算する（原理上はこうだがやっていないからわからない。というか $p(1:N\|t_{N+1})$ は結局 $p(t_{1:N+1})$ において $t_{N+1}$ を固定することになりそうなので、最初から $t_{1:N}$ の方を固定しろという話にはなる）。
結論	素直に解いた方がいいと思います。

上の表に一部かいてしまいましたが、先にタイトルを回収すると以下です。

Schur 補行列とは、「ある行列に対して、その行列の逆行列の左上（または右下）のブロックをとって、その逆行列を取ったもの」。「ある行列に対して、その行列の逆行列の左上（または右下）のブロックをとって、その逆行列を取ったものがほしい」というときにつかう。どういうときにそうなるかというと、「多変量正規分布にしたがう確率ベクトルのうち一部の変数たちを固定して、その条件下で残りの変数たちがしたがう多変量正規分布の分散共分散行列を知りたい」というとき。
Sherman-Morrison-Woodbury の公式とは、適当なサイズの4つの行列に対して成り立つ恒等式であって、どんなときに役立つかというと、行列の逐次更新式の形が「時刻 $t-1$ の行列の逆行列に他の行列を足してから逆行列をとったもの」のようになっているときに、この公式で書き換えた方が計算量的に有利になることがある（逆行列側で更新しろという形だが、諸事情で逆行列側だけでは手順が進められないとき）。別に Sherman-Morrison-Woodbury の公式がないと死ぬわけではない。ただ計算量というのは馬鹿にできないので、やっぱりないと死ぬかもしれない。Schur 補行列との関係は、この公式自体が Schur 補行列による逆行列のブロック表示からきれいに導かれるのと、だから逐次更新したい行列が Schur 補行列の逆行列型になっていたらこの恒等式で書き換えできる。書き換えるとやはり Schur 補行列の形をしている。
カルマンフィルタでは、状態ベクトルの分布を、時刻ごとに得られる観測ベクトルにしたがって更新していくが、このうちフィルタ操作（一期先予測分布からフィルタ分布への更新）では、フィルタ後分散共分散行列が Schur 補行列の逆行列型になる。なので、Sherman-Morrison-Woodbury の公式で書き換えて計算量を減らすことが多い（状態ベクトルの次元数よりも、観測ベクトルの次元数の方が小さいときにはこれが有効で、実際カルマンフィルタの適用場面ではそのようなシチュエーションが多い）。フィルタ操作に Schur 補行列をつかうわけではない。

ただし、カルマンフィルタにおいて、状態ベクトルと観測ベクトルを連結したベクトルを考えれば、フィルタ操作を「多変量正規分布を一部の変数で条件付けたい」ととらえることはできる。このようにとらえるなら、フィルタ操作に Schur 補行列をつかうことになる。あまりこうとらえないとは思う。このやり方で解くとフィルタ後分散共分散行列が直接 Schur 補行列型になる（つまり、逆行列の形で出てくるのではなく、直接 Sherman-Morrison-Woodbury の公式で書き換えた後の形が出てくる）。

普通（？）にベイズ更新式からカルマンフィルタを解く場合はフィルタ後分散共分散行列は否応なく逆行列型で出てきてしまう。雰囲気としては、観測モデルの式は状態がわかっている下での観測の分布なので、状態と観測の連結ベクトルの一期先予測分散共分散行列を $D$ に関する Schur 補行列ではなく $A$ に関する Schur 補行列でブロック分割したものになっている。なので、観測モデルから出発した素直な式変形では逆行列型が出てきてしまう。

ガウス過程回帰（PRML下巻 6.4.2 節の）では、目標変数 $t_1, \cdots, t_N$ が観測された下で $t_{N+1}$ のしたがう分布を知りたいが、これは $t_1, \cdots, t_N, t_{N+1}$ のしたがう事前分布のうち $t_1, \cdots, t_N$ を固定することで達成される。つまり Schur 補行列をつかう。

逆にこれをカルマンフィルタ的にとらえると、 $t_{N+1}$ が状態変数で、 $t_1, \cdots, t_N$ が観測変数であり、その間の共分散がカーネル関数でしばられている。状態の方が1次元で小さいので Sherman-Morrison-Woodbury の公式をつかう必要はないし、というか両辺スカラーになる。

ここからメモ（ガウス過程回帰の話はない）です。

f:id:cookie-box:20180305232608p:plain:w60

以下のサイズの行列 $A, \, B, \, C, \, D$ があるとき、

$A \in \mathbb{R}^{n \times n}, \quad B \in \mathbb{R}^{n \times m}$
$C \in \mathbb{R}^{m \times n}, \quad D \in \mathbb{R}^{m \times m}$ 以下の恒等式で逆行列がとられている行列に逆行列が存在するならば、以下の恒等式が成り立ちます。 $(A + BDC)^{-1} = A^{-1}-A^{-1}B(D^{-1}+CA^{-1}B)^{-1}CA^{-1}$ これを Sherman-Morrison-Woodbury の公式といいます。

f:id:cookie-box:20180305231302p:plain:w60

え？あ、うん。「そっか、成り立つんだ」って感じなんだけど。なんかうれしいのそれ？あと公式の名前なっが！

$A + BDC$ の逆行列が知りたいときに有用です。右辺 $A^{-1}-A^{-1}B(D^{-1}+CA^{-1}B)^{-1}CA^{-1}$ の方を求めればよいということなので。

ごめん、いうほど「 $A + BDC$ の逆行列が知りたいなー」ってなる？なったとして「右辺の方を求めればいいんだよかったー」ってなる？

例えばカルマンフィルタの問題設定（システム・観測は線形、システムノイズ・観測ノイズ・状態の事前分布はガウシアン）の下では、時刻 $t$ におけるフィルタ分布はベイズの定理より以下のようにかけます（各文字の意味は別の記事を参照してください）。

$\begin{split} p(x_{t} \, | \, y_{1:t}) &\propto p(y_t | x_t) p(x_t | y_{1:t-1}) \\ & = \exp \left( -\frac{1}{2} (y_t - H_t x_t)^{\top} {R_t}^{-1} (y_t - H_t x_t) \right) \exp \left( -\frac{1}{2} (x_t - \mu_{t|t-1} )^{\top} {V_{t|t-1}}^{-1} (x_t - \mu_{t|t-1} ) \right) \\ & = \exp \left( -\frac{1}{2} (y_t - H_t x_t)^{\top} {R_t}^{-1} (y_t - H_t x_t) -\frac{1}{2} (x_t - \mu_{t|t-1} )^{\top} {V_{t|t-1}}^{-1} (x_t - \mu_{t|t-1} ) \right) \\ & \equiv \exp \left( -\frac{1}{2}z \right) \end{split}$

ここで $z$ とおいた部分の、 $x_t$ に依存する項（ $x_t$ のしたがう分布を知りたいので）は以下のようになります。

$\begin{split} z &\propto - {y_t}^{\top} {R_t}^{-1} H_t x_t - {(H_t x_t)}^{\top} {R_t}^{-1} y_t + {(H_t x_t)}^{\top} {R_t}^{-1} H_t x_t \\ & \quad + {x_t}^{\top} {V_{t|t-1}}^{-1} x_t - {x_t}^{\top} {V_{t|t-1}}^{-1} \mu_{t|t-1} - {\mu_{t|t-1}}^{\top} {V_{t|t-1}}^{-1} x_t \\ &= {x_t}^{\top} ({V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t) x_t \\ & \quad - {x_t}^{\top} ({H_t}^{\top} {R_t}^{-1} y_t + {V_{t|t-1}}^{-1} \mu_{t|t-1}) - ({y_t}^{\top} {R_t}^{-1} H_t - {\mu_{t|t-1}}^{\top} {V_{t|t-1}}^{-1}) x_t \\&\equiv {x_t}^{\top} ({V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t) x_t - {x_t}^{\top} \alpha - \alpha^{\top} x_t \end{split}$

これは $x_t$ の二次形式になので、フィルタ分布もガウシアンであり、2次の項 ${x_t}^{\top} ({V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t) x_t$ にあらわれる ${V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t$ こそが求めたいフィルタ後分散共分散行列 $V_{t|t}$ の逆行列に他なりません。上式は $(x_t - \mu_{t|t})^{\top} {V_{t|t}}^{-1} (x_t - \mu_{t|t})$ の形に平方完成できますから（係数比較より $\mu_{t|t} = V_{t|t} \alpha$ となります。 $x_t$ に依存しない定数項の足し引きは $x_t$ の分布の形を変えません）。「 ${V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t$ の逆行列が知りたい（それが求めたい分散共分散行列 $V_{t|t}$ だから）」となったわけです。そしてそれは Sherman-Morrison-Woodbury の公式より $V_{t|t} = V_{t|t-1} - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1}$ です。これより、以下の有名なカルマンフィルタのフィルタ分布（の分散共分散行列と平均ベクトル）が導かれます。

$\begin{split} V_{t|t} &= V_{t|t-1} - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1} \\ \mu_{t|t} &= V_{t|t}\alpha \\ &= \bigl( V_{t|t-1} - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1} \bigr) ({H_t}^{\top} {R_t}^{-1} y_t + {V_{t|t-1}}^{-1} \mu_{t|t-1}) \\&= V_{t|t-1} {H_t}^{\top} {R_t}^{-1} y_t + \mu_{t|t-1} \\&\quad - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1} {H_t}^{\top} {R_t}^{-1} y_t \\&\quad - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1} {V_{t|t-1}}^{-1} \mu_{t|t-1} \\&= V_{t|t-1} {H_t}^{\top} {R_t}^{-1} y_t + \mu_{t|t-1} \\&\quad - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} (H_t V_{t|t-1} {H_t}^{\top} + R_t ){R_t}^{-1} y_t \\&\quad + V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} R_t {R_t}^{-1} y_t \\&\quad - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t \mu_{t|t-1} \\&= V_{t|t-1} {H_t}^{\top} {R_t}^{-1} y_t + \mu_{t|t-1} - V_{t|t-1} {H_t}^{\top}{R_t}^{-1} y_t \\&\quad + V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} (y_t - H_t \mu_{t|t-1}) \\&= \mu_{t|t-1} + V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} (y_t - H_t \mu_{t|t-1})\end{split}$

これらは $K_t \equiv V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1}$ とおくともう少しすっきりかけますね。

$\begin{split} V_{t|t} &= V_{t|t-1} - K_t H_t V_{t|t-1} \\ \mu_{t|t} &= \mu_{t|t-1} + K_t (y_t - H_t \mu_{t|t-1})\end{split}$

何も逆行列補題を適用せずとも分散共分散行列と平均ベクトルを逐次式としてかくことはできます。ただ、逆行列補題を適用しない場合、毎回のフィルタリングで $V_{t|t} = ({V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t)^{-1}$ という逆行列を求めなければなりません。この行列は縦幅も横幅も状態変数の次元数ですが、状態の次元が大きいと大きな行列になりえます。他方、逆行列補題を適用すると $V_{t|t} = V_{t|t-1} - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1}$ で、このインバースの中に入っている行列のサイズは縦幅も横幅も観測変数の次元数です（カルマンフィルタの状況では $A = V_{t|t-1}^{-1}$ の逆行列が既に求まっているので逆行列を求める必要があるのはこのインバースの中身だけになるわけです）。一般にカルマンフィルタの適用場面では「状態変数の次元数 >> 観測変数の次元数」となることが多いので逆行列補題を適用した方が計算コストが小さくなるんです。状態変数の分散共分散を更新したいだけであれば分散共分散行列の逆行列（精度行列）の方を更新していけば逆行列をとる操作を回避することができそうですが、平均ベクトルの更新では平方完成をするために「精度行列の逆行列」が出てきてしまうので。

なっが！えっと、要するに、 $A$ の逆行列がわかっていて、 $A$ と $D$ のサイズを比べると $A$ の方が結構大きいときには $A + BDC$ の逆行列を直接求めるよりも $A^{-1}-A^{-1}B(D^{-1}+CA^{-1}B)^{-1}CA^{-1}$ を求めた方が楽ってこと？それでそういうシチュエーションになる例がカルマンフィルタ？なんか使用場面が限定的じゃない？

適用できる問題が特別だからといって公式の有用性が損なわれるということはないと思いますが。もっとも、この「カルマンフィルタの場合」をもっと抽象化してとらえることができます。逆行列補題に出てくる行列 $A, \, B, \, C, \, D$ は $\left( \begin{array}{cc} A & B \\ C & D \end{array} \right)$ の形に配置すると大きな行列になることに気付きましたか？

え？あー確かに、全体で $(n+m) \times (n+m)$ の大きさの行列になるな。それが？

カルマンフィルタの問題設定で、時刻 $t-1$ までの観測 $y_{1:t-1}$ を得た下での $\left( \begin{array}{c} x_t \\ y_t \end{array} \right)$ なるベクトルのしたがう分布を考えてみてください。 $x_t$ は多変量正規分布にしたがうとしていいです。であれば、 $y_t$ は $x_t$ の線形変換にガウシアンノイズを足したものなのでやはり多変量正規分布にしたがいます。この $x_t$ と $y_t$ を縦に連結した $\left( \begin{array}{c} x_t \\ y_t = H_t x_t + w_t \end{array} \right)$ もプロデューサーさんが何かを勘違いしていなければ多変量正規分布にしたがいます。証明は確率ベクトル $\left( \begin{array}{c} x_t \\ y_t \end{array} \right)$ のモーメント母関数 $\displaystyle E \left[ e^{ \left( \begin{array}{cc} t_1^{\top} & t_2^{\top} \end{array} \right) \left( \begin{array}{c} x_t \\ y_t \end{array} \right)} \right]$ が多変量正規分布にしたがう確率ベクトルのそれと一致することによりました。あ、証明をここにかくのはもう本当に面倒なので省略します。

もう数式打つの疲れてるなこれ。それで $\left( \begin{array}{c} x_t \\ y_t \end{array} \right)$ が多変量正規分布にしたがったら何なの？

モーメント母関数の計算から、 $\left( \begin{array}{c} x_t \\ y_t \end{array} \right)$ のしたがう多変量正規分布は以下になることがわかります。

$\displaystyle \exp \left\{ -\frac{1}{2} \left( \begin{array}{c} x_t - \mu_{t|t-1} \\ y_t - H_t \mu_{t|t-1} \end{array} \right)^{\top} \left( \begin{array}{cc} V_{t|t-1} & V_{t|t-1}H_t^{\top} \\ H_t V_{t|t-1} & H_t V_{t|t-1} H_t^{\top} + R_t\end{array} \right)^{-1} \left( \begin{array}{c} x_t - \mu_{t|t-1} \\ y_t - H_t \mu_{t|t-1} \end{array} \right) \right\}$ つまり、分散共分散行列 $\Sigma$ が以下になります（ $A, \, B, \, C, \, D$ は $V_{t|t-1}$ などとサイズが合うように $\Sigma$ をブロックに分けた行列とします）。 $\Sigma = \left( \begin{array}{cc} A & B \\ C & D \end{array}\right) = \left( \begin{array}{cc} V_{t|t-1} & V_{t|t-1}H_t^{\top} \\ H_t V_{t|t-1} & H_t V_{t|t-1} H_t^{\top} + R_t \end{array} \right)$ さて、ここで時刻 $t$ の観測値 $y_t$ が得られたとしましょう。 $y_t$ を観測したもとでの $x_t$ の分布はどうなるでしょうか？つまり、上の式から「 $x_t$ の分散共分散行列」だけを切り出したいということです。もちろん $V_{t|t-1}$ は不正解です。分散共分散行列は逆行列の形で挟まっているので、分散共分散行列から左上の $n \times n$ のサイズのブロックを切り出せばいいということにはなりません（精度行列であればそれでいいんですが）。

元々 $x_t$ の分散共分散行列が $V_{t|t-1}$ であったはずなのになぜ $V_{t|t-1}$ にならないのか疑問に思う方もいるかもしれません。 $V_{t|t-1}$ は $y_t$ を知らない下での $x_t$ の分散共分散行列です。 $y_t$ を知ってしまうと分散共分散行列は変わってきます。斜めに傾いた（独立でない）2変量正規分布を思い浮かべて、それの横軸を $x_t$ 、縦軸を $y_t$ と考えてみてください（この記事のグラフの真ん中のようなイメージです）。もし $y_t$ について何も知らないなら、 $x_t$ の分布はこの2変量正規分布を $y_t$ 方向に積分することになります（先ほどの記事の Histgram of x）。しかし、ある $y_t$ を手に入れてしまった場合は、その値に引いた水平線で2変量正規分布を切った断面になります。グラフの上の方の値なのか、下の方の値なのかで $x_t$ の広がりは異なりますよね。 $y_t$ を観測したもとでの $x_t$ の分布を得るには、「2変量正規分布からの切り出し」が必要なんです。

後で気付いたんですが、PRML 下巻20ページの図 6.7 に $t_1, \, t_2$ の分布を $t_1$ で固定したときの $t_2$ の分布を示すイラストがありますね。

確かに逆行列だから単純に左上のブロックを取るわけにはいかないな。って、あれ？ $y_t$ を観測した下での $x_t$ の分布って、それフィルタ後分布じゃん。じゃあフィルタ後分散共分散行列はさっき上で求めたこれだろ？

$V_{t|t} = ({V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t)^{-1} = V_{t|t-1} - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1}$

さすがにばれてしまいましたか。その $V_{t|t}$ を $\Sigma$ の部分行列 $D$ に関するシューア補行列（Schur complement matrix）といいます。 $A, \, B, \, C, \, D$ でかくと $A - B D^{-1} C$ ですね。

へ？シュ、シューア補行列？何それ？確かに $V_{t|t}$ の式と $A, \, B, \, C, \, D$ を見比べると $A - B D^{-1} C$ になってるけど。

シューア補行列とは「ある行列に対して、その行列の逆行列の左上のブロックをとって、その逆行列を取ったもの」ですよ（あるいは右下のブロックでもよく、その場合は $A$ に関するシューア補行列 $D - C A^{-1} B$ となる）。上の多変量正規分布からの切り出しは、「一部の変数を固定した残りの変数のみの分散共分散行列を知りたいので、もとの分散共分散行列の逆行列をとって、その左上のブロックをとって、それの逆行列をとって分散共分散行列に戻したい」ということなので、これはシューア補行列そのものです。ちなみにシューア補行列を用いた逆行列のブロック表示からの Sherman-Morrison-Woodbury の公式の証明が参考文献にあるので参照してください。

ふーん？でもさっきカルマンフィルタを解いたときにシューア補行列なんて出てきた？出てきたのは Sherman-Morrison-Woodbury の公式じゃなかった？

そうなんですよね。こちらの解き方ではシューア補行列は出てきますが Sherman-Morrison-Woodbury の公式は出てきません。プロデューサーさんは Sherman-Morrison-Woodbury の公式は、カルマンフィルタの場合に限らず「多変量式分布の一部の変数を固定する場合」に適用できるのではないかと考えて、カルマンフィルタをそのようにとらえたかったようなんですが、そもそもこうやって解く場合は逆行列が出てこなかったんですよね。

駄目じゃん！

ただ、カルマンフィルタ同様、多変量正規分布どうしの積を平方完成するときは Sherman-Morrison-Woodbury の公式を適用する余地があると思います。

じゃあ、代わりに出てきたシューア補行列っていうのは？

いま出てきた通り、「多変量式分布の一部の変数を固定する場合」に、条件付き分散共分散行列を求めるのにつかいます。これは計算コストのための書き換えなどではなくて、表式を導くのに必要です。詳しくは PRML 上巻の 2.3.1 節を参照してください。そして、「多変量式分布の一部の変数を固定する」ことになる例の一つが「ガウス過程回帰」（PRML 下巻 6.4.2 節）です。

つづかない