雑記: 線形回帰モデルが最小 2 乗推定できるにはデータ行列の各列が線形独立

参考文献

  1. 行列が正則であることの意味と5つの条件 | 高校数学の美しい物語(2022年5月5日参照).
    • 5 つの条件が同値であるとある。1. との同値性が一番イメージ的にもわかりやすいのが 4. だと思う。つまり、「正則である(逆行列がある)こととその線形変換の核が原点のみである(原点にうつるのは原点のみである)ことは同値である」ということである。なので自分は 1. と 4. が同値であることを前提にする。
      • ∵ もしある行列に逆行列があるならば、適当なベクトルにその行列をかけてさらに逆行列をかけたとき元のベクトルに戻ってこれなければならないが、原点は線形変換で動かせないので、原点でない点が原点にうつったら元のベクトルに戻れず詰む。なので原点でない点が原点にうつってはならない。
  2. 次元定理の意味,具体例,証明 | 高校数学の美しい物語(2022年5月5日参照).
    • 行列  X \in \mathbb{R}^{n \times m} について   {\rm rank} \, X + {\rm dim}( {\rm Ker} \, X) = m が成り立つ。大学でおぼろげに習ったはずである。
    • さっき「逆行列がある」を「核が原点のみ」にいい換えたが、核がどうだといわれたところでその行列の姿は結局イメージしにくい。なのでさらに核からランクに関連付けるためにこの定理をつかう。そうすると、「逆行列がある」⇔「核が原点のみ」⇔「ランクが列数に等しい」⇔「列ベクトルたちが線形独立である」までつながる。最後の矢印はランクの定義によった。
    • 「列ベクトルたちが線形独立である」までもってくればどのような行列か幾分イメージしやすいと思う。少なくともぱっと反例をあげられる。すべての列ベクトルが同じであるような行列にすればよい。
      • もしデータ行列 X においてすべての列ベクトルが同じであったら、1 つ目の変数にも 2 つ目の変数にも 3 つ目の変数にも同じセンサーの値が記録されているに違いない。


正則化項がない線形回帰モデルの回帰係数が最小 2 乗法で一つに定まるためには、個々のデータを各行に並べた行列  X について X^\top X が正則でなければならない。このための条件は  Xm 本の列ベクトルが線形独立である(つまり、{\rm rank} \, X = m である)ことである。十分性と必要性の証明を下のほうに記す(必要性は 2 パターン)。忙しい人向けに 3 つの証明を 1 行ずつでかくと以下になる。 が正則のいい換えで が次元定理である。
  • X のランクが列数」X の核が原点のみ」⇒「X^\top X の核も原点のみ」X^\top X が正則」
  • X^\top X が正則」X^\top X の核が原点のみ」X^\top X のランクが列数」⇒「X のランクが列数」
  • X^\top X が正則」⇒「X の核が原点のみ」X のランクが列数」

なので、入力空間が 1 次元ならば、つまり m = 1 ならば、すべてのデータが 0 というのでもない限り最小 2 乗法ができる。安心である。

命題.
行列  X \in \mathbb{R}^{n \times m} について、Xm 本の列ベクトルが線形独立である(つまり、{\rm rank} \, X = m である)ことは、X^\top X \in \mathbb{R}^{m \times m} が正則であるための必要十分条件である。
十分性の証明.

正方行列が正則であることと、その行列に対応する線形写像の核が原点のみであることは同値であるので [1]、{\rm Ker} \, X^\top X= \{ 0\} を示せばよい。

まず、次元定理 [2] より、 {\rm dim}( {\rm Ker} \, X) = m - {\rm rank} \, X = 0 なので、{\rm Ker} \, X= \{ 0\} である。よって、 {\rm Ker} \, X^\top X = \{ v \, | \, X^\top X v = 0\, \} \subset \{ v \, | \, v^\top X^\top X v = 0\, \}= \{ v \, | \, X v = 0\, \}={\rm Ker} \, X= \{ 0\}

したがって {\rm Ker} \, X^\top X= \{ 0\} なので X^\top X は正則である。
必要性の証明.
X^\top X が正則であると仮定すると、{\rm Ker} \, X^\top X= \{ 0\} であり、次元定理より {\rm rank} \, X^\top X = m である。
行列の積のランクの性質 {\rm rank} \, X^\top X \leqq {\rm rank} \, X より、m \leqq {\rm rank} \, X である。
他方、 Xn \times m 行列なので {\rm rank} \, X \leqq m でなければならず、結局 {\rm rank} \, X = m である。
必要性の証明(別解).
X^\top X が正則であると仮定すると、
Xv = 0 \; \Rightarrow \; X^\top Xv = 0 \; \Rightarrow \; (X^\top X)^{-1}X^\top Xv = 0 \; \Rightarrow \; v = 0
なので、この対偶をとると、v\neq 0  \; \Rightarrow \;Xv \neq 0 である。よって  \{ v \, | \, X v = 0\, \} = \{ 0\} である。
したがって {\rm Ker} \, X= \{ 0\} なので、次元定理より {\rm rank} \, X = m である。