以下の本を読みます。
統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)
- 作者:宮川 雅巳
- 発売日: 2004/04/01
- メディア: 単行本
飲酒の習慣と病気Xの関係に興味があるとします。「飲酒の習慣があるか」「病気Xを発症したか」という2×2分割表が1つだけあるときは、「真実は以下のどちらなんだろう」という問題を考えることになるでしょう。これは通常のカイ2乗検定です。
- 飲酒の習慣と病気Xは無関係である。
- 飲酒の習慣と病気Xは無関係ではない。
ただ、その分割表が実は男女別の2つの分割表に分けることができて、それを活かそうとするとき、考える問題は自明ではありません。例えば、「以下のどちらなんだろう」と考えるのは一つの案です。
- 男性であっても女性であっても飲酒の習慣と病気Xは無関係である。
- 男性か女性の少なくとも一方で飲酒の習慣と病気Xは無関係ではない。
まあそれで、このような病気の因子の例であてはまるかはわかりませんが、もし「飲酒の習慣は病気Xのリスクを上げることこそあれ、下げることはない」「飲酒の習慣の病気Xへの効果の大きさは、男性でも女性でも同じであるはずである」と信じられるなら、以下のどちらかだろうと考えることができます。
- 飲酒の習慣の病気Xへの効果の大きさ(0かもしれない)は男性でも女性でも同じと仮定した下で、
- 男性であっても女性であっても飲酒の習慣と病気Xは無関係である。
- 男性であっても女性であっても飲酒の習慣と病気Xは無関係ではない。
…みたいな感じだと思っているんですが、テキストの14ページに「マンテル・ヘンツェル検定統計量は、すべての層で処理の効果があるときに検出力の高い指向性検定と位置付けることができる」とあるのが、MH検定は仮定が違うので何かこうもっと趣が違うのではという気がしました。いやしかし、私はカイ2乗検定の原理があやふやなので…。
とりあえず 1.4 節に進もう…埒が明かないし…。
それもそうですね。この教科書では、「因果ダイアグラムを作成し、バックドア基準に基づく説明変数の選択を行う」というところに向かうようです。統計的因果探索の本では「因果グラフ」といっていた気がしますが、causal diagram と causal graph を調べると前者はフレームワークやモデルで後者はグラフ自体を指していたりするんでしょうか? まあいいですが。…2章では、まず用語が導入されていますね。上でいう「飲酒の習慣があるか」と「病気Xを発症したか」を処理変数と反応変数といいます。処理というと如何にも「薬を投与された」「手術された」のような、誰かに割り付けられたものといった印象がありますが、飲酒や喫煙の習慣など、個体が自ら選択したり自然にそうなったりしたような変数も処理変数とよぶんですね。必要な場合は「治療」と「曝露」といって区別するようですが。そして、処理変数は、counterfactual(そうでなかったかもしれない)なものでなければならないと。