確率論のダイジェスト - クッキーの日記

「確率論って何？」と訊かれるときとかあると思います。ないけど。そんなときのためにダイジェスト版にしました。
相手のセリフは固定（グレー四角部分）なので協力を仰いでください。
なお、セミナー進度の都合上、以下の本の最初3分の1くらいの内容です。もっと進んで加筆することが出てきたら足します。
はじめての確率論測度から確率へ : 佐藤坦

確率って「コインを2回投げて2回とも裏が出る確率は4分の1」とか、「コインを投げて表が出ると10点もらえるとして、2回投げたときの得点の期待値は20点」みたいな、パターンの数え上げで考える話じゃなかったの？

中高ではそう。ある試行の結果起こりうること全体（標本空間）が $\Omega=\{$ (表, 表), (表, 裏), (裏, 表), (裏, 裏) $\}$ のように有限個だったら数え上げでいい。それで何も困らない。
そもそも中高までの確率とは、「サイコロをふって偶数の目が出る確率は2分の1」のように、「事象の要素数 ÷ 標本空間の要素数」だった。
- 「サイコロをふって偶数の目が出る確率」では、標本空間は $\Omega=\{1, 2, 3, 4, 5, 6\}$ で、事象（標本空間の任意の部分集合）はこの場合は $A=\{ 2, 4, 6\} \subset \Omega$ になる。確率は $P(A)=\#A/\#\Omega$ になる（ $\#$ を、集合の要素数をとる記号とする）。
でもこの考え方だと $\Omega$ の要素数が有限個ではなくなったとき困る。例えば「コインを無限回投げる」とか、「0～1の任意の実数を返す乱数おみくじを引く」という試行のように。
でも直感的には、「コインを無限回投げて最初の1回だけ表がでる確率は2分の1だろう」「0～1の乱数おみくじを引いて0～0.5が出る確率は2分の1だろう」というように、これらの試行にも確率が考えられないということはない。このような場合でも確率を定義できるようにしたいという望みがある。

じゃあ一般的な確率はどう考えるの？

任意の $A \subset \Omega$ について確率 $P(A)$ を考えようとするのはやめる。そもそも、（乱数おみくじを引く例だと）「 [0, 1) の任意の部分集合」なんていってもどんな集合族になるのかよくわからない。任意の部分集合ではなく、[0, 0.5) $\subset$ [0, 1) のような、いま興味のある部分集合の上にだけ確率が定義されていればいい。 $\Omega$ の部分集合で興味のあるものたちを集めて $\mathcal{B}$ とし、 $A \in \mathcal{B}$ なる $A$ に対してだけ確率 $P(A)$ を定義することを考える。
じゃあ、はの部分集合族として自分で勝手に決めていいのかというとそういうわけにはいかない。なぜなら、「確率というものはこうあってほしい」という素朴な願いがあるから。を勝手に決めるとそれが満たされない。なので、以下の3つの願いが満たされるように、に3つの条件を課す。
- 「全事象に対して確率がとれてほしい。」 $\Omega \in \mathcal{B}$
- 「ある事象の確率がとれるなら、その余事象にも確率がとれてほしい。」 $A \in \mathcal{B} \Rightarrow A^{C} \in \mathcal{B}$
- 「確率がとれるような事象の有限和や、有限和の極限にも確率がとれてほしい。つまり、無限和にも確率がとれてほしい。」 $A_1, A_2, A_3, \cdots \in \mathcal{B} \Rightarrow \bigcup_{n=1}^{\infty} A_n \in \mathcal{B}$
上の3つの条件を満たす $\mathcal{B}$ を $\Omega$ 上の $\sigma$ -集合体（ $\sigma$ -加法族）という。 $\Omega$ に対して $\mathcal{B}$ の取り方は色々ある。
$(\Omega, \mathcal{B})$ を組にして、可測空間という。可測空間の上に確率が測れる。
じゃあに対して確率はどう決めるのかというと、やっぱり「確率というものはこうあってほしい」という願いがあるので、好き勝手には決められない。以下の3つを満たすように決める。
- 「確率は0以上1以下であってほしい。」 $0 \leqq P(A) \leqq 1$
- 「全事象に対する確率は1であってほしい。」 $P(\Omega)=1$
- 「 $A_1, A_2, \cdots, A_n$ がすべて互いに同時に起こらない事象だったら、『 $A_1$ か $A_2$ か $\cdots$ か $A_n$ が起こる確率』は $P(A_1), P(A_2), \cdots, P(A_n)$ の和であってほしい。かつ、単調連続であってほしい
  （ $A_1 \subset A_2 \subset \cdots A_n$ のとき、先に事象の極限をとってから確率を求めても、先に確率をとってからその極限をとっても、同じ確率に収束してほしい）。」
  $A_1, A_2, A_3, \cdots \in \mathcal{B}, \; A_n \cap A_l = \emptyset \, (n \ne l) \, \Rightarrow \, P(\bigcup_{n=1}^{\infty} A_n) = \sum_{n=1}^{\infty} P(A_n)$
この3つ目の条件を可算加法性という。上の3条件を満たす $P$ を可測空間 $(\Omega, \mathcal{B})$ 上の確率測度という。
$(\Omega, \mathcal{B}, P)$ を組にして、確率空間という。

これで期待値なども扱えるようになるの？

まだ確率空間の上に積分を定義していない。例えば「期待値をとる」という操作は、 $\Omega$ 上に定義された関数 $X(\omega)$ に、確率の重みをつけて積分することに相当するが、我々はまだ $\Omega$ 上の積分を知らない。
逆に、積分を考えやすい関数から考えることにする。例えば、 $\Omega$ が $A_1, A_2, \cdots, A_n \in \mathcal{B}$ で有限に分割（※）できるとして、 $\Omega$ 上の関数 $X(\omega)$ が $A_1, A_2, \cdots, A_n$ 上でそれぞれ実数値 $a_1, a_2, \cdots, a_n$ をとるような関数だったら、 $X(\omega)$ の期待値は容易に考えられる。つまり、 $X(\omega)$ の期待値は $\sum_{k=1}^{n} a_k P(A_k)$ になる。このような形に書ける関数を $(\Omega, \mathcal{B})$ 上の単関数（単純関数；simple function）という。
※ 互いに共通部分をもたない部分集合に分けること。
単関数だとなんかカクカクした $X(\omega)$ しか考えられないので、単関数列の極限として表せる関数 $X(\omega)$ も考える。このような関数を $(\Omega, \mathcal{B})$ 上の可測関数という（可測関数自体はふつう別の特徴付けで定義されるが、結果的に「単関数列の極限として表せる関数」と同値になる）。
それで、可測関数として表せる関数 $X(\omega)$ に対して積分を定義することにする。単関数列の個々の積分値の極限になるわけだが、可測関数 $X(\omega)$ に近づく単関数列は一意ではない（分割が一意ではないし、近づき方も一意ではない）ので、どんな単関数列をとっても同じ値に収束することはちゃんと確認しないといけない（これは証明できる）。

金融や他の実用分野での要請から確率論を学ぶ非数学民もあると思うんですが、そういう自分のような実用分野から来た必然性厨（「何の役に立つの？」厨ともいう）は、ややもすると「なんで $\sigma$ -集合体じゃないといけないの？」「可測関数じゃないと駄目なんですか？」ってなると思う。別に駄目ではなく、そう考えたかった／やりやすかっただけ。ルベーグ空間なども、いま考えている中で確率空間を完備化して目いっぱい広げたらそうなっただけ。が区別できるとやりやすいとおもいます。