雑記: 中心極限定理の話

キャラクターは架空のものです。おかしい点がありましたらご指摘いただけますと幸いです。
参考文献

  1. 中心極限定理 - Wikipedia

f:id:cookie-box:20190101155733p:plain:w60

X_1, \cdots, X_n を独立に同一の分布にしたがう確率変数たちとします(面倒なので真の分布の平均は 0 とし、分散は 0 < \sigma^2 < +\infty とします)。「X_1, \cdots, X_n の和を \sqrt{n} で割ったもの」もまた確率変数ですが、その特性関数 \varphi(\cdot) がどうなるか考えると、

 \displaystyle \varphi(t) = \mathbb{E}\left[ e^{it \frac{1}{\sqrt{n}} \sum_{i=1}^n X_i} \right] = \int \cdots \int \prod_{i=1}^n e^{it \frac{1}{\sqrt{n}}X_i} p(x_1)dx_1 \cdots p(x_n) dx_n = \left( \mathbb{E}\left[ e^{it \frac{X_1}{\sqrt{n}}} \right] \right)^n = \varphi_1 \left( \frac{t}{\sqrt{n}}\right)^n
より、「X_1 の特性関数 \varphi_1(\cdot)t/\sqrt{n} を代入して n 乗したもの」と同じになることがわかります。ただこれだけだと \varphi(\cdot) がどのような特性関数なのかまだわかりづらいですから、(n \to \infty のときにどうなるかを知りたいので)\varphi_1(\cdot)0 のまわりでテイラー展開してみましょう。
 \displaystyle \varphi_1 \left( \frac{t}{\sqrt{n}}\right) = \varphi_1(0) + \varphi_1'(0) \frac{t}{\sqrt{n}}+ \frac{\varphi_1''(0)}{2!} \frac{t^2}{n}+ o \left( \frac{t^2}{n} \right)
これに以下を代入すればいいはずです。
  \displaystyle \varphi_1(0) = \mathbb{E}\left[e^{it X_1} \right]_{t = 0} = 1
  \displaystyle \varphi_1'(0) = \mathbb{E}\left[i X_1 e^{it X_1} \right]_{t = 0} = 0
  \displaystyle \varphi_1''(0) = \mathbb{E}\left[- X_1^2 e^{it X_1} \right]_{t = 0} = - \sigma^2
そうすると結局「X_1, \cdots, X_n の和を \sqrt{n} で割ったもの」の特性関数は  n \to \infty で以下のようになります(高校で習う、ネイピア数の定義の形の極限ですね)。これは正規分布の特性関数に他なりません。
 \displaystyle \varphi(t) =  \varphi_1 \left( \frac{t}{\sqrt{n}}\right)^n = \left( 1 - \frac{\sigma^2 t^2}{2n} + o \left( \frac{t^2}{n} \right) \right)^n \to e^{-\frac{\sigma^2 t^2}{2}}
つまり、(真の分布が有限な分散をもつならば)真の分布の形によらず「独立に同一の分布にしたがう X_1, \cdots, X_n の和を \sqrt{n} で割ったもの」は  n \to \infty正規分布にしたがいます。…という話がありますよね?

f:id:cookie-box:20190101160814p:plain:w60

導入長いよ! ウィキペディアのまんまだし!!

f:id:cookie-box:20190101155733p:plain:w60

これなんですが、どうにもこの結論に向かわされている感じがしませんか?

f:id:cookie-box:20190101160814p:plain:w60

どこが?

f:id:cookie-box:20190101155733p:plain:w60

まず、独立に同一の分布にしたがう X_1, \cdots, X_n の和を「\sqrt{n} で割った」ものから出発したところです。唐突ではないですか? X_1, \cdots, X_n の和のままでいくか、n で割る(標本平均)ならわかりますよ? \sqrt{n} というのはいかにも中途半端ですよね?

f:id:cookie-box:20190101160814p:plain:w60

じゃあ割らなくてもいいよ。「X_1, \cdots, X_n の和」の特性関数を \varphi(\cdot) と定義して出発すれば、以下にたどり着くだろう。

 \displaystyle \varphi(t) =  \varphi_1 (t)^n = \left( 1 - \frac{\sigma^2 t^2}{2} + o \left(t^2\right) \right)^n
ただこれだと一般に \varphi(\cdot)n \to \infty でどうなるかは何もいえないね。 o \left(t^2\right) の部分がどうなっているかは真の分布の形によるし。でも一般的に何かいえないだろうかと考えて観察するならば、t t/\sqrt{n} を代入すれば上式が n \to \infty で極限をもつと気付くだろう。ある確率変数の「特性関数に  t/\sqrt{n} を代入したものが正規分布の特性関数に収束する」ということは、その確率変数を「\sqrt{n} で割った確率変数の分布が正規分布に分布収束する」ということと同じだよ。

f:id:cookie-box:20190101155733p:plain:w60

ぬ。では、標本平均から出発したらどうなります?

f:id:cookie-box:20190101160814p:plain:w60

標本平均の特性関数を \varphi(\cdot) と定義するならこうかな?

 \displaystyle \varphi(t) =  \varphi_1 \left(\frac{t}{n}\right)^n = \left( 1 - \frac{\sigma^2 t^2}{2 n^2} + o \left(\frac{t^2}{n^2}\right) \right)^n= \left( 1 - \frac{\sigma^2 t^2}{2 n^2} + o \left(\frac{t^2}{n^2}\right) \right)^{n^2 \cdot \frac{1}{n}}
これは n \to \infty1 に収束する。この特性関数に対応する確率分布関数は \delta(x) だから(便宜的には)、これ自体は「真の平均が 0 である確率変数 n 個の標本平均は 0 に近づく」というあまりありがたくもないことを言っていることになる。もっと何かありがたいことを言いたいと思えば、t^2 の項が n \to \infty で生き残るように、t\sqrt{n}t を代入することを思い付くだろう。

f:id:cookie-box:20190101155733p:plain:w60

そういわれると確かに、X_1, \cdots, X_n の和や標本平均を主役にして出発したとしても、結局後から和を \sqrt{n} で割ったものに軌道修正されそうですね…ただ、まだ気になる点があります。この話では \varphi_1(t)3 次以上の項を上手く消しているようにみえるんですが、そこを残すことってできないんでしょうか? 3 次以上の項が消えるから特性関数が正規分布のそれに収束するんですよね? 「恣意的に正規分布になるようにしたのでは?」という疑いがぬぐえません。

f:id:cookie-box:20190101160814p:plain:w60

…まず、このシチュエーションでは 3 次以上の項を残すことはできないよ。X_1, \cdots, X_n の和の特性関数は  \varphi(t) = (1 - \sigma^2 t^2 / 2 + o(t^2) )^n の形をしていることは確定している。これの tt/n^a \, (a > 0) を代入する形で  n \to \infty1 でない収束先に収束させようとするなら、3 次以上の項は 2 次の項に比べて相対的に消えてしまう。分散 \sigma^2 が有限なら必ずそうなる。

f:id:cookie-box:20190101155733p:plain:w60

なるほど、特性関数の 3 次以上の項は  n \to \infty で消えざるをえなかったんですね。それなら確かに恣意的に正規分布にしたというわけではなさそうですね。

f:id:cookie-box:20190101160814p:plain:w60

というかそもそも、「中心極限定理の収束先の分布が正規分布になるのが不思議」というよりは「中心極限定理の収束先の分布を私たちは正規分布とよんで重用する」という方が適切かもね。

f:id:cookie-box:20190101155733p:plain:w60

あー、そのような物言いを聞く気はしますね…つまり、「中心極限定理正規分布に収束するのはなぜ?」という疑問は「氷が摂氏0度で凍るのはなぜ?」と同レベルということですか。

f:id:cookie-box:20190101160814p:plain:w60

いや、正規分布中心極限定理によってしか特徴付けられないわけでもないと思うけど…。

f:id:cookie-box:20190101155733p:plain:w60

いやでも、もし「氷が摂氏0度で凍るのはなぜ?」と近所の小学生に訊かれたとして、彼/彼女は「なぜぴったり摂氏0度なのか」ではなく「なぜ水は相転移現象を示すのか」に興味があるのかもしれません。

f:id:cookie-box:20190101160814p:plain:w60

知らないよ…なんでそっち掘り下げたの…。

f:id:cookie-box:20190101155733p:plain:w60

中心極限定理の話をまとめましょう。面倒なので、「独立に同一の分布にしたがう確率変数たちの和」から出発しましょう。

  • 独立に同一の分布にしたがう確率変数たちの和の特性関数 \varphi(t) は、元の確率変数の特性関数 \varphi_1(t) = 1 - \sigma^2 t^2 /2 + o(t^2)n 乗の形になります。これは、特性関数の定義が e^{itX} の期待値であり、X\sum_{i=1}^n X_i を代入すれば e^{itX_i} の積の形になるからですね。
  • この「何かの n 乗」の形をもつ特性関数が n \to \infty で何かありがたい極限をもつためには、ネイピア数の定義の形に持ち込まなければなりません。つまり、n 乗される中身を、「1 +『n 倍して n \to \infty としたら(常には0でない値に)収束する項』」にしなければなりません。
  • 元の分布の形 \varphi_1(t) は動かせませんから、これに代入する変数を少々工夫してネイピア数の定義の形に持ち込むよりありません。つまり、tt/\sqrt{n} を代入することになります。
    • これは最初に考えた「確率変数たちの和」を 1/\sqrt{n} 倍することに相当します。
    • tt/n などを代入したら特性関数の極限は恒等的に1になってデルタ関数に相当しますし、t/\sqrt[4]{n} などを代入したら特性関数は分散を無限に引き伸ばした正規分布のそれになりますが、いずれにせよそれらのようなぺちゃんこな分布はありがたくないわけです。「情報が増えるなら真実に近づく(分布は針になる)」と「情報を全て足していくなら分散はどこまでも広がる(分布は無限に広がる)」のバランスが取れるのが 1/\sqrt{n} 倍なのだというところでしょう。
  • そうすると、\varphi_1(t)3 次以上の項は n \to \infty で相対的に消えてしまいます。元の確率変数の 3 次以上のモーメントの情報は n \to \infty で生き残ることがかなわなかったわけです。
  • そんなこんなで「確率変数たちの和の 1/\sqrt{n} 倍」の特性関数の n \to \infty の極限として \varphi_1(t/\sqrt{n})^n \to e^{-\frac{\sigma^2 t^2}{2}} を得るわけですが、これがどのような分布かは特性関数を確率分布関数に反転すればよいですね。つまり、 e^{-\frac{x^2}{2 \sigma^2}} です。
私たちはこの形を正規分布とよびます。正規分布は元の確率変数の 2 次のモーメントの情報だけをつかって無限に足し合わせたような分布です。2 次のモーメントは確率変数が「確率的に揺れ動く」ことを示す最も小さい次数のモーメントといえるでしょう(1 次のモーメントは平均の位置を示しますが、これ自体は確率的に揺れ動くことを示していません)。独立に同一の分布にしたがうたくさんの確率変数の和を取るとき、それ以上の情報は相対的に消えてしまうというわけです。
注意として、正規分布3 次以上のモーメントがないわけではありません。以下からも明らかに、正規分布は偶数次のモーメントをどこまでももちます。
 \displaystyle \varphi(t) = e^{-\frac{\sigma^2 t^2}{2}} = 1 - \frac{\sigma^2 t^2}{2} + \frac{1}{2!} \frac{\sigma^4 t^4}{2^2} - \frac{1}{3!} \frac{\sigma^6 t^6}{2^3} + \cdots
キュムラントであれば 2 次で打ち切られますね。
 \displaystyle \log \varphi(t) = \log e^{-\frac{\sigma^2 t^2}{2}} = - \frac{\sigma^2 t^2}{2}

つづかない