統計的因果推論: ノート1

以下の本を読みます。

※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。
f:id:cookie-box:20200531131544p:plain:w60

統計的因果推論というのは、「ある変数からある変数にどれだけの因果的効果があるか推定する」ことを目指す学問なのですよね? 以前に統計的因果探索の本を読みましたが、

こちらの統計的因果探索は統計的因果推論の中でも「変数間の因果関係を推定する」ところに特化した分野であったのですよね。特に上で読んだ本は、線形非ガウスモデル(LiNGAM)を仮定して、その仮定の下で具体的に因果関係を推定する手法を取り扱っていました。では、今回読む本は何を扱っているのでしょう? 書名も「統計的因果推論」ですが、より広い包括的な内容ということなのでしょうか?

f:id:cookie-box:20200531131606p:plain:w60

いや、たぶんだけど、従来的な統計的因果推論の本では因果関係の推定は関心事ではないんじゃないかな。出発点が、「X から Y への因果的効果を知りたい(因果的効果はないこともあるかもしれないが、因果が逆向きであることはありえない)」なんだと思う。「目の前に因果関係が未知の変数がたくさんあって、この中から因果関係を見出したい」ではないんだと思う。今回読む本のまえがきにも、「その変数間に因果的意味での先行関係があるかどうかを判断するのは、(中略)決して困難な作業ではない」ってあるし、因果の向きはもうわかっているって感じがある。つまり、「新薬の血圧への効果を知りたい」「広告の売上高への効果を知りたい」などといった、因果があるなら向きが明らかな状況こそが考えられているんじゃないかな。「どの変数からどの変数かはわからないが見出したい」というのはごく近年の視点っぽくもあるし。

だから、従来的な統計的因果推論の本の関心事はやっぱり「如何にして X から Y への因果的効果のみをしぼり取るのか」=「如何にして交絡因子の影響を排除するのか」なんだと思う。とすれば内容は必然的に、「交絡因子とは何か」「如何にその影響を排除するのか」になるんじゃないかな。このうち特に前者の方は理論寄りの本か実践寄りの本かで扱い方の軽重が違いそうだけど。

今回読む本の目次を列挙すると以下で、雑には2~5章が「交絡因子とは何か」、6~8章が「如何にその影響を排除するのか」っていえるのかな。2章に傾向スコアや5章に操作変数法の話があるから完全に分離された構成になっているわけじゃないけど。ともかく、有向グラフの言葉で交絡因子とは何かをきちんと取り扱っていくみたいだね。

  1. 古典的問題意識 ― 因果推論でやりたいことは何か。なぜ純粋な統計学では立ち向かえないのか。
  2. 因果推論の基礎概念
  3. パス解析 ― 構造方程式モデル。
  4. 非巡回的有向独立グラフ
  5. 介入効果とその識別可能条件 ― 操作変数法も。
  6. 回帰モデルによる因果推論
  7. 条件付き介入と同時介入
  8. 非巡回的有向独立グラフの復元
それで、「如何にその影響を排除するのか」については実践寄りの本の方が様々な状況に即した手法が豊富なのかもしれないね。特に今回読む本は2004年の本ってこともあるし。例えば現在執筆されつつあってインターネット上で公開されている以下の本の第 II 部と第 III 部とか色々載っているのかなって思ったよ。

f:id:cookie-box:20200531131544p:plain:w60

なるほど。では統計的因果探索の本とは趣が異な…るということもないですね。あちらの本でもまず構造方程式モデルをやりましたよ。そこから先にどこに向かっていくのかは違うのでしょうが。

とにかく本編に入りましょう。といっても、実は以前に1章は読んだことがあるんです。

f:id:cookie-box:20200531131606p:plain:w60

誰かと勉強会やってたんだ。

f:id:cookie-box:20200531131544p:plain:w60

ひとりでやりました。勉強会という言葉に複数人でやるという含意はありません。

f:id:cookie-box:20200531131606p:plain:w60

勉強会の会には人が集まるという含意があるんじゃないかな。

f:id:cookie-box:20200531131544p:plain:w60

ただ、いまこの資料を見返すと、7ページ目でなぜ超幾何分布が出てくるのがわかりませんね。超幾何分布って、「白玉 K 個と赤玉 N-K 個を入れた袋から n 個の玉を取り出したときに白玉は何個含まれているでしょう?」といった分布なのですよね? 「うどんが好きかどうかは合格/不合格に影響するか」とどう関係あるんですか。なんですかこの不親切な資料は。

f:id:cookie-box:20200531131606p:plain:w60

だから、「うどん好きな人  n_{1,+,k} 人とうどん嫌いな人  n_{2,+,k} 人を入れた袋から  n_{+,1,k} 人を取り出して合格させたときにうどん好きな人は何人合格しているでしょう?」といった分布にしたがってくれないと困るよね。うどん好きかうどん嫌いかが合格するかどうかに影響しないなら。

2020-09-06 追記
f:id:cookie-box:20200531131544p:plain:w60

人を袋に入れないでください。しかし、各都道府県の合格者数が超幾何分布にしたがうのはわかりました。わかりましたが、ではここからどうすればいいのでしょう?

f:id:cookie-box:20200531131606p:plain:w60

ある県に対するカイ2乗検定は、統計量  \chi_k^2 = \displaystyle \sum_{i=1}^2 \sum_{j=1}^2 \frac{\bigl( n_{i,j,k} - E[n_{i,j,k}] \bigr)^2}{E[n_{i,j,k}]} \; \left(E[n_{i,j,k}]=\frac{n_{i,+,k} n_{+,j,k}}{n_{+,+,k}}\right) が近似的に自由度1のカイ2乗分布にしたがうことを利用して、これが上側5%点より大きければ「うどん好きかうどん嫌いかは合格するかどうかに影響しない」を棄却するよね。それで、いま47都道府県あるから、 \chi^2 = \sum_{k=1}^{47} \chi_k^2 は近似的に自由度47のカイ2乗分布にしたがう。それはそうなんだけど、 \chi^2 が自由度47のカイ2乗の上側5%点より大きかったとして、そのときの結論は「『全ての県においてうどん好きかうどん嫌いかは合格するかどうかに影響しない』とはいえない」になるよね。これでいいならいいんだけど、もし示したいことが「うどん好きかどうかは合格するかどうかに影響する(都道府県によらず)」だったら、この結論はちょっと違うよね。

f:id:cookie-box:20200531131544p:plain:w60

えっと、そうですね。 「いずれかの県では影響する」と「すべての県で影響する」では違いますね。うーん、では、やはり都道府県の別は無視してカイ2乗検定をすればいいのでしょうか。最初から1つの2×2分割表にしてしまえば。

f:id:cookie-box:20200531131606p:plain:w60

だからそれがユール・シンプソンのパラドクスにつながるんだって。そもそも都道府県別の合格率に差がある状況だったとき、合格率が低い県のうどん好きな人をたくさんサンプリングしてしまっていたら、本当はうどん好きな人は合格率が高いのにその効果がみえなくなるかもしれない。

f:id:cookie-box:20200531131544p:plain:w60

どうしろと…。

(次回があれば)つづく