正規分布からの iid 標本の標本平均と不偏分散が独立であることの証明の話

参考文献

  1. 日本統計学会 編. 日本統計学会公式認定統計検定 統計検定1級対応 統計学. 東京図書株式会社, 2013.
    • 47 ページに 1 次元正規分布からの iid 標本の標本平均と不偏分散の独立の証明があります。
  2. 雑記: t分布の話 - クッキーの日記
    • この証明をつかう例で 6 セリフ目でつかっていますが直交行列 Q の導入の説明はいい加減です。


それぞれ独立に 1 次元正規分布 N(\mu, \sigma^2) にしたがうサイズ n の標本  X^{(1)}, \cdots, X^{(n)} の標本平均と不偏分散が独立であることを示したいことがあると思います。この場合、それぞれ独立に 1 次元標準正規分布 N(0, 1) にしたがう  Y^{(1)}, \cdots, Y^{(n)} の標本平均と不偏分散が独立であることを示せば事足ります。これを示すやり方は以下のようなやり方がよく紹介されていると思います(参考文献 [1] の 47 ページなど)。
標本  Y^{(1)}, \cdots, Y^{(n)} \overset{\rm iid}{\sim} N(0,1) の標本平均 \overline{Y}_n と不偏分散 V_n が独立であることの証明(通常版)
 \overrightarrow{Y} = (Y^{(1)}, \cdots, Y^{(n)})^{\top} \overrightarrow{Z}=Q^{\top} \overrightarrow{Y} と変換する。ここで Q は 1 列目の成分がすべて 1/\sqrt{n} である直交行列である。このとき、
 \begin{align}  Z^{(1)} = \sum_{i=1}^n q_{i,1} Y^{(i)} = \frac{1}{\sqrt{n}} \bigl( Y^{(1)} + \cdots + Y^{(n)} \bigr) = \frac{1}{\sqrt{n}} \sum_{i=1}^n Y^{(i)} = \sqrt{n} \overline{Y}_n \end{align}
より、

  • 元の標本平均は \overline{Y}_n = Z^{(1)} / \sqrt{n} とかける。
  • 元の不偏分散は V_n = ({Z^{(2)}}^2+ \cdots + {Z^{(n)}}^2) / (n-1) とかける(以下)。

 \begin{align}  V_n &= \frac{1}{n-1}\sum_{i=1}^{n} \bigl(Y^{(i)} - \overline{Y}_n \bigr)^2 \\ &= \frac{1}{n-1} \sum_{i=1}^{n} {Y^{(i)}}^2 - 2 \frac{\overline{Y}_n}{n-1} \sum_{i=1}^{n} Y^{(i)} + \frac{n}{n-1} (\overline{Y}_n)^2 \\ &= \frac{1}{n-1} \sum_{i=1}^{n} {Y^{(i)}}^2 - \frac{n}{n-1} (\overline{Y}_n)^2 \\ &= \frac{1}{n-1} \sum_{i=1}^{n} {Z^{(i)}}^2 - \frac{1}{n-1} (Z^{(1)})^2 \\ &= \frac{1}{n-1} \sum_{i=2}^{n} {Z^{(i)}}^2 \end{align}

いま、 \overrightarrow{Y}N(O, I_n) にしたがうので、 \overrightarrow{Z}N(O, Q^{\top} I_n Q) = N(O, I_n) にしたがう。よって、Z^{(1)} (Z^{(2)}, \cdots, Z^{(n)}) は独立である。したがって、\overline{Y}_nV_n は独立である。

これで何ら疑問の余地はありませんが、「 \overrightarrow{Z}=Q^{\top} \overrightarrow{Y} と変換する」というのが唐突だと思います。なので、自分なりにアレンジしてみたいと思います。「これなら唐突でないね」と感じるかには個人差があります。
標本  Y^{(1)}, \cdots, Y^{(n)} \overset{\rm iid}{\sim} N(0,1) の標本平均 \overline{Y}_n と不偏分散 V_n が独立であることの証明(潜在変数版)
証明の方針として、 \overrightarrow{Y} = (Y^{(1)}, \cdots, Y^{(n)})^{\top} が以下の要請を満たす潜在変数 \overrightarrow{Z} = (Z^{(1)}, \cdots, Z^{(l)})^{\top} の変換で生成できれば \overline{Y}_nV_n は独立であるといえる。

  1. \overrightarrow{Z} は互いに独立な  (Z^{(1)}, \cdots, Z^{(m-1)}) (Z^{(m)}, \cdots, Z^{(l)}) からなる。
  2. \overline{Y}_n (Z^{(1)}, \cdots, Z^{(m)}) のみに依存し、 (Z^{(m+1)}, \cdots, Z^{(l)}) には依存しない。
  3. V_n (Z^{(m+1)}, \cdots, Z^{(l)}) のみに依存し、  (Z^{(1)}, \cdots, Z^{(m)}) には依存しない。

さしあたり、  \overrightarrow{Z} \overrightarrow{Y} と同じ n 次元で  (Z^{(1)}, \cdots, Z^{(n)})^{\top} \sim N(O, I_n) であると仮定し、 \overrightarrow{Y} への変換を線形変換  \overrightarrow{Y}=Q \overrightarrow{Z} と仮定する。 \overrightarrow{Y}=Q \overrightarrow{Z}N(O, I_n) にしたがうことから、Q Q^{\top} = I_n でなければならず、Q は直交行列である。こう仮定すると \overrightarrow{Z} の成分はすべて互いに独立なのでこの時点で要請 1. は満たす。ので、要請 2., 3. も満たすような  \overrightarrow{Z}, \, Q があるか探す。元の不偏分散は  \overrightarrow{Z}, \, Q でかくと

\displaystyle V_n = \frac{1}{n-1} \sum_{i=1}^n \left( \sum_{j=1}^n {q_{i, j}} Z^{(j)} \right)^2 - \frac{1}{n(n-1)} \left( \sum_{j=1}^n \left( \sum_{i=1}^n {q_{i, j}} \right) Z^{(j)} \right)^2

となるので、要請 3. V_n (Z^{(1)}, \cdots, Z^{(m)}) に依存しないためには、以下が成り立つ必要がある。
\displaystyle \frac{1}{n-1} \sum_{i=1}^n \left( \sum_{j=1}^m {q_{i, j}} Z^{(j)} \right)^2 - \frac{1}{n(n-1)} \left( \sum_{j=1}^m \left( \sum_{i=1}^n {q_{i, j}} \right) Z^{(j)} \right)^2 = 0
\displaystyle \Leftrightarrow \; \sum_{i=1}^n \left( {q_{i, 1}} Z^{(1)} + \cdots + {q_{i, m}} Z^{(m)} \right)^2 = \frac{1}{n} \left( \left( \sum_{i=1}^n {q_{i, 1}} \right) Z^{(1)} + \cdots + \left( \sum_{i=1}^n {q_{i, m}} \right) Z^{(m)} \right)^2

上式の両辺の {Z^{(1)}}^2, \cdots, {Z^{(m)}}^2 の係数比較より、Q1, \cdots, m 列は列和が \sqrt{n} でなければならない。しかし、n 次元の単位ベクトルの成分の和が \sqrt{n} になるのはすべての成分が 1/\sqrt{n} のときのみである。直交行列内の 2 列を同一のベクトルにはできないので、V_n が依存しないのは Z^{(1)} のみにしなければならない。というわけで m=1 であり、Q の 1 列目はすべての成分が 1/\sqrt{n} になる。逆にこのとき、
 \begin{align}  Z^{(1)} = \sum_{i=1}^n q_{i,1} Y^{(i)} = \frac{1}{\sqrt{n}} \bigl( Y^{(1)} + \cdots + Y^{(n)} \bigr) = \frac{1}{\sqrt{n}} \sum_{i=1}^n Y^{(i)} = \sqrt{n} \overline{Y}_n \end{align}
となり、\overline{Y}_nZ^{(1)} のみに依存するので要請 2. も満たされる。したがって、\overline{Y}_nV_n は独立である。
まず、標本平均と不偏分散が独立であるからにはそれぞれ独立な確率変数から生成されるだろうと考えて、潜在変数 Z^{(1)}, \cdots, Z^{(l)} を導入するのはそれほど唐突ではないはずです(個人差があります)。潜在変数を導入するのは変分自己符号化器や状態空間モデルのようなもので自然な発想だと思います(個人差があります)。
また、さしあたりの仮定として、潜在変数もまた n 次元であり、 N(O, I_n) にしたがい、 \overrightarrow{Y} への変換は線形変換  \overrightarrow{Y}=Q \overrightarrow{Z} とするのも最初はシンプルなモデルで考えようという意味では突拍子なくはないと思います(個人差があります)。こうすると不偏分散が Z^{(1)}, \cdots, Z^{(n)} の一部には依存しないという要請から通常の証明で導入される Q が導かれます。

なお、標本平均が Z^{(m+1)}, \cdots, Z^{(n)} には依存しないという要請 2. を先に判定すると、Qm+1, \cdots, n 列目は列和が 0 であることが必要になりますが、これでは何列目以降の列和が 0 であるべきかまで特定できないです。なので要請 3. の判定も必要になりますが、むしろ要請 3. の判定だけで事足りるので上の証明では要請 3. の判定だけにしました。