参考文献
- 24-3. 2標本t検定とは | 統計学の時間 | 統計WEB ― 2標本t検定の話があります。
- Student's t-distribution - Wikipedia ― t分布を発表された方の顔写真があります。
- http://www012.upp.so-net.ne.jp/doi/biostat/CT39/ttest.pdf ― 「t分布はどのようにして生まれたか」というのと「分散をプールするとはどういうことか」というのがわかりやすかったです。この記事のt分布の導入の流れはこの参考文献の流れに近いです。
- 意外と難しいT分布についての証明 - Qiita ― t分布の導出について全面的に参考にしました。
- 不偏分散と自由度n-1のカイ二乗分布 | 高校数学の美しい物語 ― 上の記事にもリンクがありますが不偏分散の分布の導出について全面的に参考にしました。
まとめ
- 対応のない2標本(分散は同一で未知)の平均に差があるか検定するには自由度 のt分布をつかう。
- まず から独立に 個のデータを生成したら は にしたがう。
- 未知の を不偏標本分散で置き換えた は自由度 のt分布にしたがう。
- が にしたがうことと、それとは独立に が自由度 のカイ2乗分布にしたがうことから導かれる。
- 対応のない2標本があるとき、 は にしたがう。他方、 は自由度 のカイ2乗分布にしたがう(カイ2乗分布の再生性)。これらを組み合わせると、自由度 のt分布にしたがう検定統計量が構成される。
日常生活の中で、手元にある対応のない2標本の平均に差があるか気になって、「標本0は から独立に生成されていて、標本1は から独立に生成されているだろう( は不明)」と考えて、以下の検定統計量 を用いて2標本t検定をすることがありますよね。但し、標本0のサイズを , 標本平均を , 不偏標本分散を とし、標本1のサイズを , 標本平均を , 不偏標本分散を とします。
帰無仮説 | 対立仮説 | 棄却域(有意水準5%の場合) |
---|---|---|
または | ||
母分散 がわからなかったら、ですか…。先ほどと同様に が にしたがうことを利用しようとしても、 がわからないので区間が定まりませんね。…であれば、 を不偏標本分散 などで置き換えて としてはいけないでしょうか? いえ、しかし、不偏標本分散 は標本の出方によって真の母分散 よりも大きく出たり小さく出たりしますから、やはりそのまま置き換えても にはしたがわないでしょう。不偏標本分散 が大きく出たり小さく出たりという分布をも考慮して、 の分布の形を考え直す必要があるでしょうね…。
それでいいよ。まず が大きく出たり小さく出たりという分布を出してみよう。
えっ、 のしたがう分布ですか? うーん…とりあえず展開しましょう。標本0内の 番目のデータを とかくことにしましょう( )。
急に投了しないで! …まあ確かに第2項は厄介だ。以下にもトリッキーってかいてあるしね。
つまり、座標変換で第2項を消すことにする。まず がしたがう分布が ではなくて の場合を考える。このとき という変換をする( と は縦に 個並んだベクトルのイメージね)。あ、この は直交行列にしたいのね。変換前後で2乗和を保ちたいから。じゃあどんな を選べばいいかというと、変換後の第1成分が となるようにしたい。つまり、 の1行目の成分をすべて にする。だってそうすれば、いまは がしたがう分布が の場合を考えたけど、一般に が にしたがう場合は が自由度 のカイ2乗分布にしたがうね。
…いま がしたがう分布を知ろうとして、 のしたがう分布がわかった、という状態ですよね。では次はどうすればいいんでしょう?
じゃあ分子の のしたがう分布は?
自体は、 が にしたがうのでしょう? まず母分散 が既知の場合はといって副部長自身が言っていましたよ。しかし、 と がしたがう分布がわかったからといって、 のしたがう分布はわかりませんよね。結局、 がどんな値をとるときは がどんな値をとりうるという相関構造がわからなければ… と が独立でもない限り…。
と は独立だよ?
え? 直感的には標本平均と標本分散が独立には思えな…。
のしたがう分布を導出したときに、 という変換をしたけど、変換後の も多変量標準正規分布にしたがうから各成分は独立だ。そして、変換後の第1成分は で、変換後の第2~n成分の2乗和は だった。
あっ… と は独立ということになりますね…。 という変換が標本平均と標本分散を振り分けていたとは…。であれば、いま知りたい のしたがう分布は計算すればよいです。
ここまでたどり着いたことになるね。
t分布が何者かはわかりました。まさしくその がしたがう分布なのですね。しかし、本当に検定したいのは標本0と標本1の平均が同じかどうかです。
だったら調べるべき をつくろう。いま以下がわかっていた。
- は にしたがう。
- は にしたがう。
- は にしたがう。
- は にしたがう。
- は にしたがう。
- は にしたがう。