雑記: 経験過程の話

f:id:cookie-box:20190101155733p:plain:w60

参考文献1. の1章の導入部の最初の段落を読むと、P\mathbb{R} 上のボレル集合体の上の確率測度とし、その分布関数を F(x)=P\bigl((-\infty, x]\bigr) とし、X_1, X_2, \cdots を独立に P にしたがう確率変数とします。このとき、任意のボレル集合 A に対し P_n(A)=\frac{1}{n}\sum_{j=1}^{n}\delta_{X_j}(A) と定義します(ただし、\delta_{x}(A)=1_A(x) とします)。このとき P_n は確率測度となり、経験測度とよばれるということです。また、これに対応する分布 F_n を経験分布とよぶと…何ですかこの P_n は? 経験分布ってヒストグラムのことじゃないんですか?

f:id:cookie-box:20190101160814p:plain:w60

A が切り取る範囲に X_1, X_2, \cdots, X_n のうち m 点が含まれてたら  P_n(A)=m/n ってことだからね。つまり、経験分布 F_n(x)(-\infty, x]m 点が含まれてたら  F_n(x)=m/n だから、x=-\infty0 から出発して観測値を一つ通る度に 1/n ずつ増えていく形の分布関数だね。累積ヒストグラムっぽい形だけど、等間隔のビンになっているわけじゃないからね。

f:id:cookie-box:20190101155733p:plain:w60

なるほど。それで、次の段落には、「n \to \infty でほとんど確実に F_nF に一様収束する」、言い換えると「n \to \infty\underset{x}{\rm sup}|F_n(x) - F(x)| \xrightarrow{\rm a.s.} 0」とありますね。それは確かに F_nF に収束してほしい気がしますが…これを「Glivenko-Cantelli の定理(一様大数の法則)」というのですか? 普通の「大数の法則」とは違うのですか?

f:id:cookie-box:20190101160814p:plain:w60

普通の「大数の法則」は「標本平均」が「真の平均」に近づくといっているよね。

一様大数の法則は「経験分布」が「真の分布」に近づくといっているよね。

f:id:cookie-box:20190101155733p:plain:w60

ああ、いっていることが違いますね…。ところで、その「確率収束」と「概収束」って何でしたっけ。

f:id:cookie-box:20190101160814p:plain:w60

n 回目に投げるときに裏の出る確率が 1/n になる不思議なコインがあるとしよう。このコインを投げた結果 X_n は「表」に近づくね。どんな \delta > 0 を取っても、N_\delta = \lfloor 1/\delta \rfloor + 1 とすれば N_\delta 回目以降は「裏」の出る確率は \delta より小さくなる。これが確率収束だ。「裏」の出る確率はいくらでも小さくなる。でも、「 N_0 回目以降は『裏』の出る確率は 0 になる」を成り立たせる N_0 は存在しない。これはなぜかというと、n 回目に裏が出るという事象を A_n とすると \sum_{n=1}^{\infty}P(A_n) = \sum_{n=1}^{\infty} 1/n= \infty となるよね。このとき、ボレル・カンテリの補題より、 P(\underset{n \to \infty}{\rm lim \, sup} \, A_n) = 1 となる。この  \underset{n \to \infty}{\rm lim \, sup} \, A_n というのは、「どんな n をとっても n 回目以降に『裏』が出る事象」だけど、この事象の確率が 1 だっていうんだから、 N_0 をどんなに大きくとってもそれ以降に必ず「裏」は出てしまう。ある大きい  N_0 をとればそれ以降「裏」は出ないというのが概収束だから、このコイン投げは「表」に概収束はしない。「裏」の出る確率を 0 にはできない。…ただ、n 回目に投げるときに裏の出る確率が 1/n^2 になるコインなら「表」に概収束する。\sum_{n=1}^{\infty} 1/n^2 = \pi^2/6 < \infty だから、\underset{N}{\inf} \sum_{n=N}^{\infty} 1/n^2 = 0 でないといけなくて、「裏」が無限回出る確率は 0 になるんだよね。

f:id:cookie-box:20190101155733p:plain:w60

えっ、うーん、何か騙されているような…裏の出る確率が 1/n^2 でも「N_0 回目以降に『裏』が出ることが 0 となる」ことはないのでは…僅かには「裏」が出る確率がありそうな…しかし、僅かにでも「裏」が出る確率があり続けるなら \sum_{n=1}^{\infty} 1/n^2 は発散してしまうということなんでしょうか。1/n1/n^2 も似たようなものにみえるのに、無限級数が収束するかどうかでこうも差が出るのですか。概収束は「どんな n 回目から先もこれが起きる」という形をしているために、「n 回目にこれが起きる」という事象の和集合を扱うことになり、級数が絡んでくる…? …まあそれで、一様大数の法則大数の法則とは違って「n \to \infty でほとんど確実に F_nF に一様収束する」というものですか。試行を増やすほど、ある分布に近づく…ん? そんな話どこかで聞いたことあるような…中心極限定理です!

f:id:cookie-box:20190101160814p:plain:w60

確かに中心極限定理では試行を増やすと正規分布に近づく。けど、その「正規分布に近づく」と一様大数の法則の「真の分布に近づく」は位置付けが違う。以下のような表にしてみるとわかりやすいかな。中心極限定理の「正規分布に近づく」は、「\bar{X}_n の分布は最終的には \mu にそびえ立つ棒になるけど途中経過としては正規分布をたどる(コーシー分布やt分布ではなく)」という意味だ。でも、一様大数の法則の「真の分布に近づく」は「最終的に真の分布になる」だからね。途中経過じゃない。

n 個のデータから
何をつくるか
\bar{X}_n (標本平均) F_n(t) (経験分布)
それは最終的には
何に近づくのか
ほとんど確実に \mu に収束する
大数の法則
ほとんど確実に一様に F(t) に収束する
(Glivenko-Cantelli の定理)
(一様大数の法則
途中経過としてはどのように近づくのか \bar{X} の分布は N(\mu, \sigma^2/n) に収束する、つまり、\sqrt{n}(\bar{X}_n-\mu) の分布は N(0,1) に収束する
中心極限定理
ある確率空間で経験過程 \alpha_n(t):=\sqrt{n}\bigl(F_n(t) - F(t) \bigr) の分布はブラウン橋 y_{F(t)} に収束する
(Donsker の定理)
汎関数中心極限定理の一つ)

f:id:cookie-box:20190101155733p:plain:w60

う、そういわれると確かに、F_n にとって F は最終的にたどりつく動かないところですね。しかし、中心極限定理はまだぶれがあるときの分布の話なのですね。となると、F_n における途中経過、中心極限定理に相当するものがあるのでしょうか。分布が分布にどのように近づくかですから、分布という関数の分布を考えなければなりませんね。つまり、確率過程が出てくるのでしょうか。ってその表の右下、ネタバレしてますよね…。気を取り直して、参考文献1. の導入部の3段落目を読むと、\alpha_n(t):=\sqrt{n}\bigl(F_n(t)-F(t) \bigr) なる確率過程を経験過程というのですね。経験分布と真の分布の誤差はサンプルの出方に依存する関数ですから、これは振るとある誤差関数が出てくるサイコロですね。それで、この \alpha_n(t) は各 t では N \bigl( 0, F(t) ( 1 - F (t) ) \bigr) に近づく? え、なぜです??

f:id:cookie-box:20190101160814p:plain:w60

いや、その段落にも二項分布ってかいてあるんだけど、参考文献2. の4枚目にもあるね。t を固定すれば nF_n(t){\rm Bi} \bigl(n, F(t) \bigr) にしたがう。だって、n F_n(t) は「n 個サンプルを観測したときに、t 以下の値であるのはいくつか」に他ならないけど、t 以下になる確率は F(t) だからね。二項分布は n \to \infty正規分布に近づくね。まあ独立に同一のベルヌーイ分布にしたがう n 個の確率変数の標本平均に対する中心極限定理と考えてもいいと思うけど。このときの確率測度はボレル集合体の上確率測度ってかいてあるね。t 軸上のボレル集合体じゃなくて、t 軸上のどの点からも伸びている、\alpha_n(t) の軸上のボレル集合体だね。

f:id:cookie-box:20190101155733p:plain:w60

いま t は固定していますものね。

f:id:cookie-box:20190101160814p:plain:w60

さらに t 軸上の有限集合 T を考えれば、\{\alpha_n(t)\}_{t \in T} は漸近的に多変量正規分布にしたがう。多変量の中心極限定理だね。分散共分散行列の成分は F(s)(1 - F(t) ) だ。

f:id:cookie-box:20190101155733p:plain:w60

え、なぜですか? 多変量の中心極限定理ウィキペディアにありますけど、分散共分散行列の成分は確率  F(s) で表が出るコインと確率 F(t) で表が出るコインの(共)分散ですよね。s = t の場合はベルヌーイ分布の分散  F(t)(1 - F(t) ) になるでしょうけど、 s \neq t の場合は 0 になるかと。だって2枚のコイン投げは独立でしょう? だいたい、F(s)(1 - F(t) ) って非対称でおかしいですよね?

f:id:cookie-box:20190101160814p:plain:w60

独立じゃないからね。s \leqq t としよう。地点 s でも地点 t でもコインを投げるわけだけど、もし地点 s で表が出たら、地点 t で表が出ることはもう確定しているんだよね。F_n(\cdot) は経験分布なんだから。

f:id:cookie-box:20190101155733p:plain:w60

あ。

f:id:cookie-box:20190101160814p:plain:w60

だから確率 F(s) で地点 s でも地点 t でも表が出て、確率 F(t)-F(s) で地点 t でのみ表が出て、確率 1-F(t) でどちらの地点でも裏が出るコイン投げを考えればいい。2枚のコインの分散は、\mathbb{E} [ (Z_s - F(s) )(Z_t - F(t) ) ]= \mathbb{E} [Z_s Z_t ] - F(s) F(t) = F(s) - F(s) F(t) だ。2枚のコインが独立なら \mathbb{E} [Z_s Z_t ] = F(s) F(t) だけど、独立じゃないから \mathbb{E} [Z_s Z_t ] = F(s) になる。

f:id:cookie-box:20190101155733p:plain:w60

しかし、添え字 t をもつ確率変数たち \{\alpha_n(t)\}_{t \in T} が多変量正規分布にしばられているというのは非常に聞き覚えがありますね。ガウス過程です。

f:id:cookie-box:20190101160814p:plain:w60

まさしく。特に、ガウス過程 y_t(\omega) であって、0 \leqq t \leqq 1 に定義され、\{y_t(\omega)\}_{t \in T} の平均ベクトルがゼロベクトル、自己共分散が {\rm Cov} \bigl( y_s(\omega), y_t(\omega) \bigr) = s(1-t) (但し s \leqq t とする)であるものをブラウン橋という。

f:id:cookie-box:20190101155733p:plain:w60

ブラウン橋? なぜ橋なんていうんです? 私も適当な確率過程に「瀬戸大橋」などと名付けてよいのですか??

f:id:cookie-box:20190101160814p:plain:w60

ブラウン橋はその定義から両端は  (t=0, y=0) (t=1, y=0) に必ず固定されるからね。その間を架ける橋ということでそうよぶんじゃないかな。ほら、以下の記事に絵があるよ。

f:id:cookie-box:20190101155733p:plain:w60

渡りたくありませんよそんなガタガタした橋。

f:id:cookie-box:20190101160814p:plain:w60

だから有限集合 T \subset[0,1] について \{\alpha_n(t)\}_{t \in T} はブラウン橋 y_{F(t)}(\omega) に近づく。これは多変量の中心極限定理から大丈夫だね。ブラウン橋は両端が固定されているけど、真の累積分布も経験累積分布も t \to -\infty では 0t \to +\infty では 1 になるからそりゃ両端はぴったり合うというわけだ。…じゃあ、T が無限集合になったらどうだろう…この話は難しいらしい。そもそも「関数が収束するってどういうこと?」となってくるしね。参考文献3. の4, 5枚目にも「初めて読むときは理解できる必要はありません。無理して理解しようとせず、次の次のページに早く進みましょう。」「早く次のページに移動してください。」とある。

f:id:cookie-box:20190101155733p:plain:w60

どれだけ6ページ目に移動してほしいんですか!? …でも副部長、参考文献1. の2ページ(上から5行目)にも、参考文献2. の21ページ目にも、参考文献3. の5ページ目にも、ここで Kolmogorov さんなる方のお名前が出てきますね。Kolmogorov さんという方が何かされたのですか?

f:id:cookie-box:20190101160814p:plain:w60

真の分布 F が連続なら、経験過程 \alpha_n(t) の無限大ノルムの漸近分布はブラウン橋 y_{F(t)} の無限大ノルムの分布に一致することを示したみたいだね。だから、経験過程は有限個の点での値がブラウン橋に近づいてただけじゃなくて、無限大ノルムとしてもやっぱりブラウン橋に近づいてたってことだね。でも無限大ノルムって関数についての情報のごく一例にすぎないよね。もっと一般的な関数の情報(関数を入れたら値が出てくる箱=汎関数)もブラウン橋に近づかないの?って考えたのが Doob さんで、ある条件下ではその意味でもブラウン橋に収束するといえると示したのが Donsker さんなのかな? 参考文献 3. のスライドの5ページの一番下に「関数の集合が一様にタイトであるためには何らかの条件を満たす必要があります」とあるけど、それが参考文献 2. の36~37枚目に相当するのかな。Donsker さんはこれを踏まえて経験過程がブラウン橋に収束することを示したんだと思う。たぶん参考文献 3. のスライドの5ページでいっている流れがそうだと思うんだけど。参考文献 2. の30枚目にも Prohorov の定理が出てくるしね。でもこれらのスライドにかかれている文字を読んだだけだから全然わからないな…。

つづかない