雑記

マンテル・ヘンツェル検定の検定統計量の導出が原論文をあたったら詳しくあるだろうかと思ったんですが結構一瞬で終わっていたと思います。ただマンテル・ヘンツェル検定の原論文では共通オッズ比の推定量の話も大事だと思います。
参考文献
※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。
f:id:cookie-box:20200531131606p:plain:w60

730ページの Some Statistical Tools を読むと、まず文字が定義されているね。ここでの factor と disease は「飲酒の習慣があるかどうか」「病気Xを発症したか」として読もうかな。前の記事では「うどんが好きかどうか」「試験に合格したかどうか」でやってたけど。

病気Xを発症した病気Xを発症しなかった
飲酒の習慣があるACM_1
飲酒の習慣がないBDM_2
N_1N_2T
文字の定義の下に、通常はこれを調べるといって示されているのがカイ2乗検定の検定統計量(イェーツの補正付き)だね。これが近似的に自由度1のカイ2乗分布にしたがうことを利用すると。
 \displaystyle \frac{T(|AD - BC|-T/2)^2}{N_1 M_1 N_2 M_2}
…ただし、これで検定していいのは他の要因がないか、他の要因に関してこの表の人たちが homogeneous な場合だね。

f:id:cookie-box:20200531131544p:plain:w60

他の要因というのは、例えば、喫煙の習慣とか、運動の習慣とか、年齢とか、性別とかがありえそうですよね。だから、そのあたりばらばらな人たちが混ざっているのに無視して1つの分割表にまとめてしまうと、ユール・シンプソンのパラドクスが起きてしまうという話ですよね?

f:id:cookie-box:20200531131606p:plain:w60

うん、733ページの Statistical Procedures for Factor Control という節からそういう話になってくるね。734ページの中ほどまでとぶと、そういう要因についてちゃんと subclassification された表になっているね。以下の添え字 i は、例えば i=1,2,3 で煙草を吸わない、少し吸う、たくさん吸うと考えてもいい。

病気Xを発症した病気Xを発症しなかった
飲酒の習慣があるA_iC_iM_{1i}
飲酒の習慣がないB_iD_iM_{2i}
N_{1i}N_{2i}T_i
それで、発症リスクを以下のように定義しよう。
  • 飲酒の習慣がある人の発症リスク: A_i/C_i
  • 飲酒の習慣がない人の発症リスク: B_i/D_i
  • 飲酒の習慣がある人の飲酒の習慣がない人に対する相対発症リスク(オッズ比): A_i D_i /(B_i C_i)
飲酒の習慣がある人の発症率は A_i/(A_i + C_i) だけど、 A_i \ll C_i であるときの発症率の近似が発症リスクだと思ってもいい。何にせよ、飲酒の習慣があるかないかが発症するかどうかに関係なかったら、母集団における相対発症リスク A_i D_i / (B_i C_i) の値は 1 になる。私たちは母集団における相対発症リスクが 1 かどうかに興味がある。相対発症リスクが 1 である下で A_i の期待値は超幾何分布にしたがうから、
  • E(A_i) = N_{1i} M_{1i} /T_i
  • V(A_i) = N_{1i} N_{2i} M_{1i} M_{2i}/ \bigl( T_i^2 (T_i - 1) \bigr)
この分割表単体に対するカイ2乗検定は、以下が近似的に自由度1のカイ2乗分布にしたがう。
 \displaystyle \frac{\bigl(|A_i - E(A_i)|-1/2 \bigr)^2}{V(A_i)} = \frac{(T_i - 1) \bigl(|A_i D_i - B_i C_i|-T_i/2 \bigr)^2}{N_{1i} N_{2i} M_{1i} M_{2i}}

そして、あらゆる i で相対発症リスクが 1 なのか、1 でないある値なのかに興味があるときのカイ2乗検定は、以下が近似的に自由度1のカイ2乗分布にしたがう。母集団における相対発症リスクが 1 の下で \sum_i A_i がどう分布するかを一気に検定しているんだね。

 \displaystyle \frac{\bigl(| \sum_i A_i - \sum_i E(A_i)|-1/2 \bigr)^2}{\sum_i V(A_i)}

つづいたらつづく