雑記: Schur 補行列と Sherman-Morrison-Woodbury の公式とカルマンフィルタとガウス過程回帰の整理

公式の証明はありません(参考文献の1つ目に詳しいのでそちらをご参照ください)。何か問題点がありましたらご指摘いただけますと幸いです。

(2018-12-15 追記)先にこの記事は何なのかというと、カルマンフィルタとガウス過程回帰は、どちらも観測にノイズがのっていたり何かを予測したかったり解くときにブロック行列に関する公式が出てきてちょっと似ている気がすると思います。何を知りたくて、その知りたいものは何にしばられているのかをまとめるとこうなると思います。
カルマンフィルタ(のフィルタ操作) ガウス過程回帰
知りたいこと 直接観測できない「状態」が、いまどう分布しているか知りたい。p(x_t|y_{1:t}) 空間内の「目標変数」が、それをまだ観測していないある点でどう分布しているか知りたい。p(t_{N+1}|t_{1:N})
知っていること
  • いまの観測を知らない下で予測されるいまの状態の分布は知っている。p(x_t|y_{1:t-1})
  • 状態がわかっている下で得られる観測の分布は知っている。p(y_t|x_t)
  • いまの観測は知っている。y_t
  • 何も知らない下で空間内のいくつかの目標変数がどう分布するかは知っている。p(t_{1:N+1})
  • いくつかの点での目標変数は知っている(訓練データ)。t_{1:N}
やること p(x_t|y_t) \propto p(y_t|x_t)p(x_t|y_{1:t-1}) を計算する(多変量正規分布の積の平方完成)。
→ Sherman-Morrison-Woodbury 公式を使用。
p(t_{1:N+1})t_{N+1} のみの関数にする(多変量正規分布で一部変数を固定する形の平方完成)。
→ Schur 補行列を使用。
補足 結局いまの状態の分布は、いまの観測を知らない下でその状態である確率と、その状態からいまの観測が得られる確率の積に比例する。 未知の点における目標変数の分布は、すでに知っている点とのカーネル関数にしばられている(目標変数 t_nt_n = y(x_n) + \varepsilon_n であり、y(x_n) = w^{\top}\phi(x_n) であり、p(w)=N(0, \alpha^{-1}I)という仮定をおいている。そのため、何も知らない下で、y(x_1), \cdots, y(x_N) は行列の各成分が  \alpha^{-1}\phi(x_n)^{\top}\phi(x_m) =\alpha^{-1}k(x_n, x_m) となる共分散行列をもつ多変量正規分布にしたがう)。
互いに相手っぽく解くには p(x_t, \, y_t|y_{1:t-1})x_t のみの関数にする(同時分布を出すのは面倒。もっとも、普通に解くのも面倒)。 p(t_{N+1}|t_{1:N}) \propto p(t_{1:N}|t_{N+1})p(t_{N+1}) を計算する(原理上はこうだがやっていないからわからない。というか p(1:N|t_{N+1}) は結局 p(t_{1:N+1}) において t_{N+1} を固定することになりそうなので、最初から t_{1:N} の方を固定しろという話にはなる)。
結論 素直に解いた方がいいと思います。
上の表に一部かいてしまいましたが、先にタイトルを回収すると以下です。
  • Schur 補行列とは、「ある行列に対して、その行列の逆行列の左上(または右下)のブロックをとって、その逆行列を取ったもの」。「ある行列に対して、その行列の逆行列の左上(または右下)のブロックをとって、その逆行列を取ったものがほしい」というときにつかう。どういうときにそうなるかというと、「多変量正規分布にしたがう確率ベクトルのうち一部の変数たちを固定して、その条件下で残りの変数たちがしたがう多変量正規分布の分散共分散行列を知りたい」というとき。
  • Sherman-Morrison-Woodbury の公式とは、適当なサイズの4つの行列に対して成り立つ恒等式であって、どんなときに役立つかというと、行列の逐次更新式の形が「時刻 t-1 の行列の逆行列に他の行列を足してから逆行列をとったもの」のようになっているときに、この公式で書き換えた方が計算量的に有利になることがある(逆行列側で更新しろという形だが、諸事情で逆行列側だけでは手順が進められないとき)。別に Sherman-Morrison-Woodbury の公式がないと死ぬわけではない。ただ計算量というのは馬鹿にできないので、やっぱりないと死ぬかもしれない。Schur 補行列との関係は、この公式自体が Schur 補行列による逆行列のブロック表示からきれいに導かれるのと、だから逐次更新したい行列が Schur 補行列の逆行列型になっていたらこの恒等式で書き換えできる。書き換えるとやはり Schur 補行列の形をしている。
  • カルマンフィルタでは、状態ベクトルの分布を、時刻ごとに得られる観測ベクトルにしたがって更新していくが、このうちフィルタ操作(一期先予測分布からフィルタ分布への更新)では、フィルタ後分散共分散行列が Schur 補行列の逆行列型になる。なので、Sherman-Morrison-Woodbury の公式で書き換えて計算量を減らすことが多い(状態ベクトルの次元数よりも、観測ベクトルの次元数の方が小さいときにはこれが有効で、実際カルマンフィルタの適用場面ではそのようなシチュエーションが多い)。フィルタ操作に Schur 補行列をつかうわけではない。
    • ただし、カルマンフィルタにおいて、状態ベクトルと観測ベクトルを連結したベクトルを考えれば、フィルタ操作を「多変量正規分布を一部の変数で条件付けたい」ととらえることはできる。このようにとらえるなら、フィルタ操作に Schur 補行列をつかうことになる。あまりこうとらえないとは思う。このやり方で解くとフィルタ後分散共分散行列が直接 Schur 補行列型になる(つまり、逆行列の形で出てくるのではなく、直接 Sherman-Morrison-Woodbury の公式で書き換えた後の形が出てくる)。
      • 普通(?)にベイズ更新式からカルマンフィルタを解く場合はフィルタ後分散共分散行列は否応なく逆行列型で出てきてしまう。雰囲気としては、観測モデルの式は状態がわかっている下での観測の分布なので、状態と観測の連結ベクトルの一期先予測分散共分散行列を  D に関する Schur 補行列ではなく  A に関する Schur 補行列でブロック分割したものになっている。なので、観測モデルから出発した素直な式変形では逆行列型が出てきてしまう。
  • ガウス過程回帰(PRML下巻 6.4.2 節の)では、目標変数  t_1, \cdots, t_N が観測された下で t_{N+1} のしたがう分布を知りたいが、これは  t_1, \cdots, t_N, t_{N+1} のしたがう事前分布のうち  t_1, \cdots, t_N を固定することで達成される。つまり Schur 補行列をつかう。
    • 逆にこれをカルマンフィルタ的にとらえると、t_{N+1} が状態変数で、 t_1, \cdots, t_N が観測変数であり、その間の共分散がカーネル関数でしばられている。状態の方が1次元で小さいので Sherman-Morrison-Woodbury の公式をつかう必要はないし、というか両辺スカラーになる。

ここからメモ(ガウス過程回帰の話はない)です。
f:id:cookie-box:20180305232608p:plain:w60

以下のサイズの行列 A, \, B, \, C, \, D があるとき、

 A \in \mathbb{R}^{n \times n}, \quad B \in \mathbb{R}^{n \times m}
 C \in \mathbb{R}^{m \times n}, \quad D \in \mathbb{R}^{m \times m}
以下の恒等式逆行列がとられている行列に逆行列が存在するならば、以下の恒等式が成り立ちます。
 (A + BDC)^{-1} = A^{-1}-A^{-1}B(D^{-1}+CA^{-1}B)^{-1}CA^{-1}
これを Sherman-Morrison-Woodbury の公式といいます。

f:id:cookie-box:20180305231302p:plain:w60

え? あ、うん。「そっか、成り立つんだ」って感じなんだけど。なんかうれしいのそれ? あと公式の名前なっが!

f:id:cookie-box:20180305232608p:plain:w60

 A + BDC逆行列が知りたいときに有用です。右辺  A^{-1}-A^{-1}B(D^{-1}+CA^{-1}B)^{-1}CA^{-1} の方を求めればよいということなので。

f:id:cookie-box:20180305231302p:plain:w60

ごめん、いうほど「 A + BDC逆行列が知りたいなー」ってなる? なったとして「右辺の方を求めればいいんだよかったー」ってなる?

f:id:cookie-box:20180305232608p:plain:w60

例えばカルマンフィルタの問題設定(システム・観測は線形、システムノイズ・観測ノイズ・状態の事前分布はガウシアン)の下では、時刻 t におけるフィルタ分布はベイズの定理より以下のようにかけます(各文字の意味は別の記事を参照してください)。

 \begin{split} p(x_{t} \, | \, y_{1:t}) &\propto p(y_t | x_t) p(x_t | y_{1:t-1}) \\ & = \exp \left( -\frac{1}{2} (y_t - H_t x_t)^{\top} {R_t}^{-1} (y_t - H_t x_t) \right) \exp \left( -\frac{1}{2} (x_t - \mu_{t|t-1} )^{\top} {V_{t|t-1}}^{-1} (x_t - \mu_{t|t-1} ) \right) \\ & = \exp \left( -\frac{1}{2} (y_t - H_t x_t)^{\top} {R_t}^{-1} (y_t - H_t x_t) -\frac{1}{2} (x_t - \mu_{t|t-1} )^{\top} {V_{t|t-1}}^{-1} (x_t - \mu_{t|t-1} ) \right)  \\ & \equiv \exp \left( -\frac{1}{2}z \right) \end{split}
ここで z とおいた部分の、x_t に依存する項(x_t のしたがう分布を知りたいので)は以下のようになります。
 \begin{split} z &\propto - {y_t}^{\top} {R_t}^{-1} H_t x_t - {(H_t x_t)}^{\top} {R_t}^{-1} y_t + {(H_t x_t)}^{\top} {R_t}^{-1} H_t x_t \\ & \quad + {x_t}^{\top} {V_{t|t-1}}^{-1} x_t - {x_t}^{\top} {V_{t|t-1}}^{-1} \mu_{t|t-1}  - {\mu_{t|t-1}}^{\top} {V_{t|t-1}}^{-1} x_t  \\ &= {x_t}^{\top} ({V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t) x_t \\ &  \quad - {x_t}^{\top} ({H_t}^{\top} {R_t}^{-1} y_t + {V_{t|t-1}}^{-1} \mu_{t|t-1}) - ({y_t}^{\top} {R_t}^{-1} H_t - {\mu_{t|t-1}}^{\top} {V_{t|t-1}}^{-1}) x_t \\&\equiv  {x_t}^{\top} ({V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t) x_t  - {x_t}^{\top} \alpha - \alpha^{\top} x_t \end{split}
これは x_t の二次形式になので、フィルタ分布もガウシアンであり、2次の項   {x_t}^{\top} ({V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t) x_t にあらわれる  {V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t こそが求めたいフィルタ後分散共分散行列  V_{t|t}逆行列に他なりません。上式は  (x_t - \mu_{t|t})^{\top} {V_{t|t}}^{-1}  (x_t - \mu_{t|t}) の形に平方完成できますから(係数比較より  \mu_{t|t} = V_{t|t} \alpha となります。x_t に依存しない定数項の足し引きは x_t の分布の形を変えません)。「 {V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t逆行列が知りたい(それが求めたい分散共分散行列 V_{t|t} だから)」となったわけです。そしてそれは Sherman-Morrison-Woodbury の公式より  V_{t|t} = V_{t|t-1} - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1} です。これより、以下の有名なカルマンフィルタのフィルタ分布(の分散共分散行列と平均ベクトル)が導かれます。
 \begin{split} V_{t|t} &= V_{t|t-1} - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1} \\ \mu_{t|t} &= V_{t|t}\alpha \\ &=  \bigl( V_{t|t-1} - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1} \bigr) ({H_t}^{\top} {R_t}^{-1} y_t + {V_{t|t-1}}^{-1} \mu_{t|t-1}) \\&= V_{t|t-1} {H_t}^{\top} {R_t}^{-1} y_t + \mu_{t|t-1} \\&\quad - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1} {H_t}^{\top} {R_t}^{-1} y_t \\&\quad - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1} {V_{t|t-1}}^{-1} \mu_{t|t-1} \\&= V_{t|t-1} {H_t}^{\top} {R_t}^{-1} y_t + \mu_{t|t-1} \\&\quad - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} (H_t V_{t|t-1} {H_t}^{\top} + R_t ){R_t}^{-1} y_t \\&\quad + V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} R_t {R_t}^{-1} y_t \\&\quad - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t \mu_{t|t-1} \\&= V_{t|t-1} {H_t}^{\top} {R_t}^{-1} y_t + \mu_{t|t-1} - V_{t|t-1} {H_t}^{\top}{R_t}^{-1} y_t \\&\quad + V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} (y_t  - H_t \mu_{t|t-1}) \\&= \mu_{t|t-1} + V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} (y_t  - H_t \mu_{t|t-1})\end{split}
これらは  K_t \equiv  V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} とおくともう少しすっきりかけますね。
 \begin{split} V_{t|t} &= V_{t|t-1} - K_t H_t V_{t|t-1} \\ \mu_{t|t} &= \mu_{t|t-1} + K_t (y_t  - H_t \mu_{t|t-1})\end{split}
何も逆行列補題を適用せずとも分散共分散行列と平均ベクトルを逐次式としてかくことはできます。ただ、逆行列補題を適用しない場合、毎回のフィルタリングで  V_{t|t} = ({V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t)^{-1} という逆行列を求めなければなりません。この行列は縦幅も横幅も状態変数の次元数ですが、状態の次元が大きいと大きな行列になりえます。他方、逆行列補題を適用すると  V_{t|t} = V_{t|t-1} - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1} で、このインバースの中に入っている行列のサイズは縦幅も横幅も観測変数の次元数です(カルマンフィルタの状況では A = V_{t|t-1}^{-1}逆行列が既に求まっているので逆行列を求める必要があるのはこのインバースの中身だけになるわけです)。一般にカルマンフィルタの適用場面では「状態変数の次元数 >> 観測変数の次元数」となることが多いので逆行列補題を適用した方が計算コストが小さくなるんです。状態変数の分散共分散を更新したいだけであれば分散共分散行列の逆行列(精度行列)の方を更新していけば逆行列をとる操作を回避することができそうですが、平均ベクトルの更新では平方完成をするために「精度行列の逆行列」が出てきてしまうので。

f:id:cookie-box:20180305231302p:plain:w60

なっが! えっと、要するに、A逆行列がわかっていて、AD のサイズを比べると A の方が結構大きいときには A + BDC逆行列を直接求めるよりも A^{-1}-A^{-1}B(D^{-1}+CA^{-1}B)^{-1}CA^{-1} を求めた方が楽ってこと? それでそういうシチュエーションになる例がカルマンフィルタ? なんか使用場面が限定的じゃない?

f:id:cookie-box:20180305232608p:plain:w60

適用できる問題が特別だからといって公式の有用性が損なわれるということはないと思いますが。もっとも、この「カルマンフィルタの場合」をもっと抽象化してとらえることができます。逆行列補題に出てくる行列  A, \, B, \, C, \, D \left( \begin{array}{cc} A & B \\ C & D \end{array} \right) の形に配置すると大きな行列になることに気付きましたか?

f:id:cookie-box:20180305231302p:plain:w60

え? あー確かに、全体で  (n+m) \times (n+m) の大きさの行列になるな。それが?

f:id:cookie-box:20180305232608p:plain:w60

カルマンフィルタの問題設定で、時刻 t-1 までの観測 y_{1:t-1} を得た下での  \left( \begin{array}{c} x_t \\ y_t \end{array} \right) なるベクトルのしたがう分布を考えてみてください。x_t は多変量正規分布にしたがうとしていいです。であれば、y_tx_t の線形変換にガウシアンノイズを足したものなのでやはり多変量正規分布にしたがいます。この x_ty_t を縦に連結した  \left( \begin{array}{c} x_t \\ y_t = H_t x_t + w_t \end{array} \right) もプロデューサーさんが何かを勘違いしていなければ多変量正規分布にしたがいます。証明は確率ベクトル  \left( \begin{array}{c} x_t \\ y_t \end{array} \right) のモーメント母関数 \displaystyle E \left[ e^{ \left( \begin{array}{cc} t_1^{\top} & t_2^{\top} \end{array} \right) \left( \begin{array}{c} x_t \\ y_t \end{array} \right)} \right] が多変量正規分布にしたがう確率ベクトルのそれと一致することによりました。あ、証明をここにかくのはもう本当に面倒なので省略します。

f:id:cookie-box:20180305231302p:plain:w60

もう数式打つの疲れてるなこれ。それで  \left( \begin{array}{c} x_t \\ y_t \end{array} \right) が多変量正規分布にしたがったら何なの?

f:id:cookie-box:20180305232608p:plain:w60

モーメント母関数の計算から、 \left( \begin{array}{c} x_t \\ y_t \end{array} \right) のしたがう多変量正規分布は以下になることがわかります。

  \displaystyle \exp \left\{ -\frac{1}{2} \left( \begin{array}{c} x_t - \mu_{t|t-1} \\ y_t - H_t \mu_{t|t-1} \end{array} \right)^{\top} \left( \begin{array}{cc} V_{t|t-1} & V_{t|t-1}H_t^{\top} \\ H_t V_{t|t-1} & H_t V_{t|t-1} H_t^{\top} + R_t\end{array} \right)^{-1} \left( \begin{array}{c} x_t - \mu_{t|t-1} \\ y_t - H_t \mu_{t|t-1} \end{array} \right) \right\}
つまり、分散共分散行列  \Sigma が以下になります( A, \, B, \, C, \, DV_{t|t-1} などとサイズが合うように  \Sigma をブロックに分けた行列とします)。
 \Sigma = \left( \begin{array}{cc} A & B \\ C & D \end{array}\right) = \left( \begin{array}{cc} V_{t|t-1} & V_{t|t-1}H_t^{\top} \\ H_t V_{t|t-1} & H_t V_{t|t-1} H_t^{\top} + R_t \end{array} \right)
さて、ここで時刻 t の観測値 y_t が得られたとしましょう。y_t を観測したもとでの x_t の分布はどうなるでしょうか? つまり、上の式から「 x_t の分散共分散行列」だけを切り出したいということです。もちろん V_{t|t-1} は不正解です。分散共分散行列は逆行列の形で挟まっているので、分散共分散行列から左上の n \times n のサイズのブロックを切り出せばいいということにはなりません(精度行列であればそれでいいんですが)。
  • 元々 x_t の分散共分散行列が V_{t|t-1} であったはずなのになぜ V_{t|t-1} にならないのか疑問に思う方もいるかもしれません。 V_{t|t-1}y_t を知らない下での x_t の分散共分散行列です。y_t を知ってしまうと分散共分散行列は変わってきます。斜めに傾いた(独立でない)2変量正規分布を思い浮かべて、それの横軸を x_t、縦軸を y_t と考えてみてください(この記事のグラフの真ん中のようなイメージです)。もし y_t について何も知らないなら、x_t の分布はこの2変量正規分布y_t 方向に積分することになります(先ほどの記事の Histgram of x)。しかし、ある y_t を手に入れてしまった場合は、その値に引いた水平線で2変量正規分布を切った断面になります。グラフの上の方の値なのか、下の方の値なのかで x_t の広がりは異なりますよね。y_t を観測したもとでの x_t の分布を得るには、「2変量正規分布からの切り出し」が必要なんです。
    • 後で気付いたんですが、PRML 下巻20ページの図 6.7 に t_1, \, t_2 の分布を t_1 で固定したときの t_2 の分布を示すイラストがありますね。

f:id:cookie-box:20180305231302p:plain:w60

確かに逆行列だから単純に左上のブロックを取るわけにはいかないな。って、あれ? y_t を観測した下での x_t の分布って、それフィルタ後分布じゃん。じゃあフィルタ後分散共分散行列はさっき上で求めたこれだろ?

V_{t|t} = ({V_{t|t-1}}^{-1} + {H_t}^{\top} {R_t}^{-1} H_t)^{-1} = V_{t|t-1} - V_{t|t-1} {H_t}^{\top} (H_t V_{t|t-1} {H_t}^{\top} + R_t)^{-1} H_t V_{t|t-1}

f:id:cookie-box:20180305232608p:plain:w60

さすがにばれてしまいましたか。その  V_{t|t} \Sigma の部分行列  D に関するシューア補行列(Schur complement matrix)といいます。 A, \, B, \, C, \, D でかくと  A - B D^{-1} C ですね。

f:id:cookie-box:20180305231302p:plain:w60

へ? シュ、シューア補行列? 何それ? 確かに V_{t|t} の式と A, \, B, \, C, \, D を見比べると  A - B D^{-1} C になってるけど。

f:id:cookie-box:20180305232608p:plain:w60

シューア補行列とは「ある行列に対して、その行列の逆行列の左上のブロックをとって、その逆行列を取ったもの」ですよ(あるいは右下のブロックでもよく、その場合は A に関するシューア補行列  D - C A^{-1} B となる)。上の多変量正規分布からの切り出しは、「一部の変数を固定した残りの変数のみの分散共分散行列を知りたいので、もとの分散共分散行列の逆行列をとって、その左上のブロックをとって、それの逆行列をとって分散共分散行列に戻したい」ということなので、これはシューア補行列そのものです。ちなみにシューア補行列を用いた逆行列のブロック表示からの Sherman-Morrison-Woodbury の公式の証明が参考文献にあるので参照してください。

f:id:cookie-box:20180305231302p:plain:w60

ふーん? でもさっきカルマンフィルタを解いたときにシューア補行列なんて出てきた? 出てきたのは Sherman-Morrison-Woodbury の公式じゃなかった?

f:id:cookie-box:20180305232608p:plain:w60

そうなんですよね。こちらの解き方ではシューア補行列は出てきますが Sherman-Morrison-Woodbury の公式は出てきません。プロデューサーさんは Sherman-Morrison-Woodbury の公式は、カルマンフィルタの場合に限らず「多変量式分布の一部の変数を固定する場合」に適用できるのではないかと考えて、カルマンフィルタをそのようにとらえたかったようなんですが、そもそもこうやって解く場合は逆行列が出てこなかったんですよね。

f:id:cookie-box:20180305231302p:plain:w60

駄目じゃん!

f:id:cookie-box:20180305232608p:plain:w60

ただ、カルマンフィルタ同様、多変量正規分布うしの積を平方完成するときは Sherman-Morrison-Woodbury の公式を適用する余地があると思います。

f:id:cookie-box:20180305231302p:plain:w60

じゃあ、代わりに出てきたシューア補行列っていうのは?

f:id:cookie-box:20180305232608p:plain:w60

いま出てきた通り、「多変量式分布の一部の変数を固定する場合」に、条件付き分散共分散行列を求めるのにつかいます。これは計算コストのための書き換えなどではなくて、表式を導くのに必要です。詳しくは PRML 上巻の 2.3.1 節を参照してください。そして、「多変量式分布の一部の変数を固定する」ことになる例の一つが「ガウス過程回帰」(PRML 下巻 6.4.2 節)です。

つづかない