論文読みメモ: Bivariate Beta-LSTM(その3)

以下の論文を読みます。

Kyungwoo Song, Joonho Jang, Seung jae Shin, Il-Chul Moon. Bivariate Beta LSTM. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, 2020. [1905.10521] Bivariate Beta-LSTM
※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等で指摘ください。
これまで: その1その2
f:id:cookie-box:20200531131544p:plain:w60

論文の2ページ目に、先行研究の G2-LSTM が紹介されていますね。一見 LSTM に見えますが、入力ゲートと忘却ゲートが  \sigma(\cdot) でなく G(\cdot, \tau) で活性化されています。G(\cdot, \tau) というのは…先行研究の論文を参照すると4ページ目のProposition 3.1 で定義されていますね。

 G(\alpha, \tau) \equiv  \displaystyle \sigma \left( \frac{\alpha + \log U - \log (1-U)}{\tau}\right)
U は一様分布  {\rm unif}(0, 1) にしたがう確率変数ですか。確率変数など入ってくると何が何やら…。

f:id:cookie-box:20200531131606p:plain:w60

そっちの論文はコードが公開されているから、どんな手続きか知るにはコードを読むのがいいかもね。

G(\cdot, \tau) に該当する箇所を動かしてみたのが下のノートだよ。ノイズ  \log U - \log (1-U) はさらにベルヌーイ分布でマスクされてから \alpha に足されているみたいだね。どれくらいマスクするかがハイパーパラメータだと思うけど。

その先行研究の論文の Figure 1. が通常の LSTM の入力ゲートと忘却ゲートで、Figure 3. が G2-LSTM のそれだけど、G2-LSTM はゲートの開き具合にコントラストが付いているね。

その4があればつづく

雑記

マンテル・ヘンツェル検定の検定統計量の導出が原論文をあたったら詳しくあるだろうかと思ったんですが結構一瞬で終わっていたと思います。ただマンテル・ヘンツェル検定の原論文では共通オッズ比の推定量の話も大事だと思います。
参考文献
※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。
f:id:cookie-box:20200531131606p:plain:w60

730ページの Some Statistical Tools を読むと、まず文字が定義されているね。ここでの factor と disease は「飲酒の習慣があるかどうか」「病気Xを発症したか」として読もうかな。前の記事では「うどんが好きかどうか」「試験に合格したかどうか」でやってたけど。

病気Xを発症した病気Xを発症しなかった
飲酒の習慣があるACM_1
飲酒の習慣がないBDM_2
N_1N_2T
文字の定義の下に、通常はこれを調べるといって示されているのがカイ2乗検定の検定統計量(イェーツの補正付き)だね。これが近似的に自由度1のカイ2乗分布にしたがうことを利用すると。
 \displaystyle \frac{T(|AD - BC|-T/2)^2}{N_1 M_1 N_2 M_2}
…ただし、これで検定していいのは他の要因がないか、他の要因に関してこの表の人たちが homogeneous な場合だね。

f:id:cookie-box:20200531131544p:plain:w60

他の要因というのは、例えば、喫煙の習慣とか、運動の習慣とか、年齢とか、性別とかがありえそうですよね。だから、そのあたりばらばらな人たちが混ざっているのに無視して1つの分割表にまとめてしまうと、ユール・シンプソンのパラドクスが起きてしまうという話ですよね?

f:id:cookie-box:20200531131606p:plain:w60

うん、733ページの Statistical Procedures for Factor Control という節からそういう話になってくるね。734ページの中ほどまでとぶと、そういう要因についてちゃんと subclassification された表になっているね。以下の添え字 i は、例えば i=1,2,3 で煙草を吸わない、少し吸う、たくさん吸うと考えてもいい。

病気Xを発症した病気Xを発症しなかった
飲酒の習慣があるA_iC_iM_{1i}
飲酒の習慣がないB_iD_iM_{2i}
N_{1i}N_{2i}T_i
それで、発症リスクを以下のように定義しよう。
  • 飲酒の習慣がある人の発症リスク: A_i/C_i
  • 飲酒の習慣がない人の発症リスク: B_i/D_i
  • 飲酒の習慣がある人の飲酒の習慣がない人に対する相対発症リスク(オッズ比): A_i D_i /(B_i C_i)
飲酒の習慣がある人の発症率は A_i/(A_i + C_i) だけど、 A_i \ll C_i であるときの発症率の近似が発症リスクだと思ってもいい。何にせよ、飲酒の習慣があるかないかが発症するかどうかに関係なかったら、母集団における相対発症リスク A_i D_i / (B_i C_i) の値は 1 になる。私たちは母集団における相対発症リスクが 1 かどうかに興味がある。相対発症リスクが 1 である下で A_i の期待値は超幾何分布にしたがうから、
  • E(A_i) = N_{1i} M_{1i} /T_i
  • V(A_i) = N_{1i} N_{2i} M_{1i} M_{2i}/ \bigl( T_i^2 (T_i - 1) \bigr)
この分割表単体に対するカイ2乗検定は、以下が近似的に自由度1のカイ2乗分布にしたがう。
 \displaystyle \frac{\bigl(|A_i - E(A_i)|-1/2 \bigr)^2}{V(A_i)} = \frac{(T_i - 1) \bigl(|A_i D_i - B_i C_i|-T_i/2 \bigr)^2}{N_{1i} N_{2i} M_{1i} M_{2i}}

そして、あらゆる i で相対発症リスクが 1 なのか、1 でないある値なのかに興味があるときのカイ2乗検定は、以下が近似的に自由度1のカイ2乗分布にしたがう。母集団における相対発症リスクが 1 の下で \sum_i A_i がどう分布するかを一気に検定しているんだね。

 \displaystyle \frac{\bigl(| \sum_i A_i - \sum_i E(A_i)|-1/2 \bigr)^2}{\sum_i V(A_i)}

つづいたらつづく

統計的因果推論: ノート1

以下の本を読みます。

※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。
f:id:cookie-box:20200531131544p:plain:w60

統計的因果推論というのは、「ある変数からある変数にどれだけの因果的効果があるか推定する」ことを目指す学問なのですよね? 以前に統計的因果探索の本を読みましたが、

こちらの統計的因果探索は統計的因果推論の中でも「変数間の因果関係を推定する」ところに特化した分野であったのですよね。特に上で読んだ本は、線形非ガウスモデル(LiNGAM)を仮定して、その仮定の下で具体的に因果関係を推定する手法を取り扱っていました。では、今回読む本は何を扱っているのでしょう? 書名も「統計的因果推論」ですが、より広い包括的な内容ということなのでしょうか?

f:id:cookie-box:20200531131606p:plain:w60

いや、たぶんだけど、従来的な統計的因果推論の本では因果関係の推定は関心事ではないんじゃないかな。出発点が、「X から Y への因果的効果を知りたい(因果的効果はないこともあるかもしれないが、因果が逆向きであることはありえない)」なんだと思う。「目の前に因果関係が未知の変数がたくさんあって、この中から因果関係を見出したい」ではないんだと思う。今回読む本のまえがきにも、「その変数間に因果的意味での先行関係があるかどうかを判断するのは、(中略)決して困難な作業ではない」ってあるし、因果の向きはもうわかっているって感じがある。つまり、「新薬の血圧への効果を知りたい」「広告の売上高への効果を知りたい」などといった、因果があるなら向きが明らかな状況こそが考えられているんじゃないかな。「どの変数からどの変数かはわからないが見出したい」というのはごく近年の視点っぽくもあるし。

だから、従来的な統計的因果推論の本の関心事はやっぱり「如何にして X から Y への因果的効果のみをしぼり取るのか」=「如何にして交絡因子の影響を排除するのか」なんだと思う。とすれば内容は必然的に、「交絡因子とは何か」「如何にその影響を排除するのか」になるんじゃないかな。このうち特に前者の方は理論寄りの本か実践寄りの本かで扱い方の軽重が違いそうだけど。

今回読む本の目次を列挙すると以下で、雑には2~5章が「交絡因子とは何か」、6~8章が「如何にその影響を排除するのか」っていえるのかな。2章に傾向スコアや5章に操作変数法の話があるから完全に分離された構成になっているわけじゃないけど。ともかく、有向グラフの言葉で交絡因子とは何かをきちんと取り扱っていくみたいだね。

  1. 古典的問題意識 ― 因果推論でやりたいことは何か。なぜ純粋な統計学では立ち向かえないのか。
  2. 因果推論の基礎概念
  3. パス解析 ― 構造方程式モデル。
  4. 非巡回的有向独立グラフ
  5. 介入効果とその識別可能条件 ― 操作変数法も。
  6. 回帰モデルによる因果推論
  7. 条件付き介入と同時介入
  8. 非巡回的有向独立グラフの復元
それで、「如何にその影響を排除するのか」については実践寄りの本の方が様々な状況に即した手法が豊富なのかもしれないね。特に今回読む本は2004年の本ってこともあるし。例えば現在執筆されつつあってインターネット上で公開されている以下の本の第 II 部と第 III 部とか色々載っているのかなって思ったよ。

f:id:cookie-box:20200531131544p:plain:w60

なるほど。では統計的因果探索の本とは趣が異な…るということもないですね。あちらの本でもまず構造方程式モデルをやりましたよ。そこから先にどこに向かっていくのかは違うのでしょうが。

とにかく本編に入りましょう。といっても、実は以前に1章は読んだことがあるんです。

f:id:cookie-box:20200531131606p:plain:w60

誰かと勉強会やってたんだ。

f:id:cookie-box:20200531131544p:plain:w60

ひとりでやりました。勉強会という言葉に複数人でやるという含意はありません。

f:id:cookie-box:20200531131606p:plain:w60

勉強会の会には人が集まるという含意があるんじゃないかな。

f:id:cookie-box:20200531131544p:plain:w60

ただ、いまこの資料を見返すと、7ページ目でなぜ超幾何分布が出てくるのがわかりませんね。超幾何分布って、「白玉 K 個と赤玉 N-K 個を入れた袋から n 個の玉を取り出したときに白玉は何個含まれているでしょう?」といった分布なのですよね? 「うどんが好きかどうかは合格/不合格に影響するか」とどう関係あるんですか。なんですかこの不親切な資料は。

f:id:cookie-box:20200531131606p:plain:w60

だから、「うどん好きな人  n_{1,+,k} 人とうどん嫌いな人  n_{2,+,k} 人を入れた袋から  n_{+,1,k} 人を取り出して合格させたときにうどん好きな人は何人合格しているでしょう?」といった分布にしたがってくれないと困るよね。うどん好きかうどん嫌いかが合格するかどうかに影響しないなら。

2020-09-06 追記
f:id:cookie-box:20200531131544p:plain:w60

人を袋に入れないでください。しかし、各都道府県の合格者数が超幾何分布にしたがうのはわかりました。わかりましたが、ではここからどうすればいいのでしょう?

f:id:cookie-box:20200531131606p:plain:w60

ある県に対するカイ2乗検定は、統計量  \chi_k^2 = \displaystyle \sum_{i=1}^2 \sum_{j=1}^2 \frac{\bigl( n_{i,j,k} - E[n_{i,j,k}] \bigr)^2}{E[n_{i,j,k}]} \; \left(E[n_{i,j,k}]=\frac{n_{i,+,k} n_{+,j,k}}{n_{+,+,k}}\right) が近似的に自由度1のカイ2乗分布にしたがうことを利用して、これが上側5%点より大きければ「うどん好きかうどん嫌いかは合格するかどうかに影響しない」を棄却するよね。それで、いま47都道府県あるから、 \chi^2 = \sum_{k=1}^{47} \chi_k^2 は近似的に自由度47のカイ2乗分布にしたがう。それはそうなんだけど、 \chi^2 が自由度47のカイ2乗の上側5%点より大きかったとして、そのときの結論は「『全ての県においてうどん好きかうどん嫌いかは合格するかどうかに影響しない』とはいえない」になるよね。これでいいならいいんだけど、もし示したいことが「うどん好きかどうかは合格するかどうかに影響する(都道府県によらず)」だったら、この結論はちょっと違うよね。

f:id:cookie-box:20200531131544p:plain:w60

えっと、そうですね。 「いずれかの県では影響する」と「すべての県で影響する」では違いますね。うーん、では、やはり都道府県の別は無視してカイ2乗検定をすればいいのでしょうか。最初から1つの2×2分割表にしてしまえば。

f:id:cookie-box:20200531131606p:plain:w60

だからそれがユール・シンプソンのパラドクスにつながるんだって。そもそも都道府県別の合格率に差がある状況だったとき、合格率が低い県のうどん好きな人をたくさんサンプリングしてしまっていたら、本当はうどん好きな人は合格率が高いのにその効果がみえなくなるかもしれない。

f:id:cookie-box:20200531131544p:plain:w60

どうしろと…。

(次回があれば)つづく