マンテル・ヘンツェル検定の検定統計量の導出が原論文をあたったら詳しくあるだろうかと思ったんですが結構一瞬で終わっていたと思います。ただマンテル・ヘンツェル検定の原論文では共通オッズ比の推定量の話も大事だと思います。
文字の定義の下に、通常はこれを調べるといって示されているのがカイ2乗検定の検定統計量(イェーツの補正付き)だね。これが近似的に自由度1のカイ2乗分布にしたがうことを利用すると。 …ただし、これで検定していいのは他の要因がないか、他の要因に関してこの表の人たちが homogeneous な場合だね。
それで、発症リスクを以下のように定義しよう。 つづいたらつづく
参考文献
- http://www.medicine.mcgill.ca/epidemiology/hanley/bios602/b-d-II-ch-1-2-3/MantelandHaenszel-1959.pdf ― Mantel and Haenszel(1959)の原論文。
※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。
730ページの Some Statistical Tools を読むと、まず文字が定義されているね。ここでの factor と disease は「飲酒の習慣があるかどうか」「病気Xを発症したか」として読もうかな。前の記事では「うどんが好きかどうか」「試験に合格したかどうか」でやってたけど。
病気Xを発症した | 病気Xを発症しなかった | 計 | |
飲酒の習慣がある | |||
飲酒の習慣がない | |||
計 |
他の要因というのは、例えば、喫煙の習慣とか、運動の習慣とか、年齢とか、性別とかがありえそうですよね。だから、そのあたりばらばらな人たちが混ざっているのに無視して1つの分割表にまとめてしまうと、ユール・シンプソンのパラドクスが起きてしまうという話ですよね?
うん、733ページの Statistical Procedures for Factor Control という節からそういう話になってくるね。734ページの中ほどまでとぶと、そういう要因についてちゃんと subclassification された表になっているね。以下の添え字 は、例えば で煙草を吸わない、少し吸う、たくさん吸うと考えてもいい。
病気Xを発症した | 病気Xを発症しなかった | 計 | |
飲酒の習慣がある | |||
飲酒の習慣がない | |||
計 |
- 飲酒の習慣がある人の発症リスク:
- 飲酒の習慣がない人の発症リスク:
- 飲酒の習慣がある人の飲酒の習慣がない人に対する相対発症リスク(オッズ比):
そして、あらゆる で相対発症リスクが なのか、 でないある値なのかに興味があるときのカイ2乗検定は、以下が近似的に自由度1のカイ2乗分布にしたがう。母集団における相対発症リスクが の下で がどう分布するかを一気に検定しているんだね。