2020-09-09

論文読みメモ： Bivariate Beta-LSTM（その3）

論文読み

以下の論文を読みます。

Kyungwoo Song, Joonho Jang, Seung jae Shin, Il-Chul Moon. Bivariate Beta LSTM. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, 2020. [1905.10521] Bivariate Beta-LSTM

※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等で指摘ください。
これまで：その1 → その2

f:id:cookie-box:20200531131544p:plain:w60

論文の2ページ目に、先行研究の G²-LSTM が紹介されていますね。一見 LSTM に見えますが、入力ゲートと忘却ゲートが $\sigma(\cdot)$ でなく $G(\cdot, \tau)$ で活性化されています。 $G(\cdot, \tau)$ というのは…先行研究の論文を参照すると4ページ目のProposition 3.1 で定義されていますね。

$G(\alpha, \tau) \equiv \displaystyle \sigma \left( \frac{\alpha + \log U - \log (1-U)}{\tau}\right)$ $U$ は一様分布 ${\rm unif}(0, 1)$ にしたがう確率変数ですか。確率変数など入ってくると何が何やら…。

f:id:cookie-box:20200531131606p:plain:w60

そっちの論文はコードが公開されているから、どんな手続きか知るにはコードを読むのがいいかもね。

GitHub - zhuohan123/g2-lstm: Codes for "Towards Binary-Valued Gates for Robust LSTM Training".

$G(\cdot, \tau)$ に該当する箇所を動かしてみたのが下のノートだよ。ノイズ $\log U - \log (1-U)$ はさらにベルヌーイ分布でマスクされてから $\alpha$ に足されているみたいだね。どれくらいマスクするかがハイパーパラメータだと思うけど。

その先行研究の論文の Figure 1. が通常の LSTM の入力ゲートと忘却ゲートで、Figure 3. が G²-LSTM のそれだけど、G²-LSTM はゲートの開き具合にコントラストが付いているね。

その4があればつづく

2020-09-08

雑記

マンテル・ヘンツェル検定の検定統計量の導出が原論文をあたったら詳しくあるだろうかと思ったんですが結構一瞬で終わっていたと思います。ただマンテル・ヘンツェル検定の原論文では共通オッズ比の推定量の話も大事だと思います。

参考文献

http://www.medicine.mcgill.ca/epidemiology/hanley/bios602/b-d-II-ch-1-2-3/MantelandHaenszel-1959.pdf ― Mantel and Haenszel（1959）の原論文。

※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。

730ページの Some Statistical Tools を読むと、まず文字が定義されているね。ここでの factor と disease は「飲酒の習慣があるかどうか」「病気Xを発症したか」として読もうかな。前の記事では「うどんが好きかどうか」「試験に合格したかどうか」でやってたけど。

	病気Xを発症した	病気Xを発症しなかった	計
飲酒の習慣がある	$A$	$C$	$M_1$
飲酒の習慣がない	$B$	$D$	$M_2$
計	$N_1$	$N_2$	$T$

文字の定義の下に、通常はこれを調べるといって示されているのがカイ2乗検定の検定統計量（イェーツの補正付き）だね。これが近似的に自由度1のカイ2乗分布にしたがうことを利用すると。 $\displaystyle \frac{T(|AD - BC|-T/2)^2}{N_1 M_1 N_2 M_2}$ …ただし、これで検定していいのは他の要因がないか、他の要因に関してこの表の人たちが homogeneous な場合だね。

他の要因というのは、例えば、喫煙の習慣とか、運動の習慣とか、年齢とか、性別とかがありえそうですよね。だから、そのあたりばらばらな人たちが混ざっているのに無視して1つの分割表にまとめてしまうと、ユール・シンプソンのパラドクスが起きてしまうという話ですよね？

うん、733ページの Statistical Procedures for Factor Control という節からそういう話になってくるね。734ページの中ほどまでとぶと、そういう要因についてちゃんと subclassification された表になっているね。以下の添え字 $i$ は、例えば $i=1,2,3$ で煙草を吸わない、少し吸う、たくさん吸うと考えてもいい。

	病気Xを発症した	病気Xを発症しなかった	計
飲酒の習慣がある	$A_i$	$C_i$	$M_{1i}$
飲酒の習慣がない	$B_i$	$D_i$	$M_{2i}$
計	$N_{1i}$	$N_{2i}$	$T_i$

それで、発症リスクを以下のように定義しよう。

飲酒の習慣がある人の発症リスク： $A_i/C_i$
飲酒の習慣がない人の発症リスク： $B_i/D_i$
飲酒の習慣がある人の飲酒の習慣がない人に対する相対発症リスク（オッズ比）： $A_i D_i /(B_i C_i)$

飲酒の習慣がある人の発症率は $A_i/(A_i + C_i)$ だけど、 $A_i \ll C_i$ であるときの発症率の近似が発症リスクだと思ってもいい。何にせよ、飲酒の習慣があるかないかが発症するかどうかに関係なかったら、母集団における相対発症リスク $A_i D_i / (B_i C_i)$ の値は $1$ になる。私たちは母集団における相対発症リスクが $1$ かどうかに興味がある。相対発症リスクが $1$ である下で $A_i$ の期待値は超幾何分布にしたがうから、

$E(A_i) = N_{1i} M_{1i} /T_i$
$V(A_i) = N_{1i} N_{2i} M_{1i} M_{2i}/ \bigl( T_i^2 (T_i - 1) \bigr)$

この分割表単体に対するカイ2乗検定は、以下が近似的に自由度1のカイ2乗分布にしたがう。 $\displaystyle \frac{\bigl(|A_i - E(A_i)|-1/2 \bigr)^2}{V(A_i)} = \frac{(T_i - 1) \bigl(|A_i D_i - B_i C_i|-T_i/2 \bigr)^2}{N_{1i} N_{2i} M_{1i} M_{2i}}$

そして、あらゆる $i$ で相対発症リスクが $1$ なのか、 $1$ でないある値なのかに興味があるときのカイ2乗検定は、以下が近似的に自由度1のカイ2乗分布にしたがう。母集団における相対発症リスクが $1$ の下で $\sum_i A_i$ がどう分布するかを一気に検定しているんだね。

$\displaystyle \frac{\bigl(| \sum_i A_i - \sum_i E(A_i)|-1/2 \bigr)^2}{\sum_i V(A_i)}$

つづいたらつづく

2020-09-07

LSTM / GRU で Sequential MNIST を学習する

機械学習

LSTM / GRU で Sequential MNIST を学習しようとしています。私の誤りは私に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。

2020-09-06

TCN で Sequential MNIST を学習する

機械学習

TCN で Sequential MNIST を学習しています。私の誤りは私に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。

2020-09-05

統計的因果推論：ノート1

本読み

以下の本を読みます。

統計的因果推論―回帰分析の新しい枠組み (シリーズ・予測と発見の科学)

作者:宮川雅巳
発売日: 2004/04/01
メディア: 単行本

前回：「統計的因果推論」勉強会「1. 古典的問題意識」／次回：まだ

※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等でご指摘いただけますと幸いです。

統計的因果推論というのは、「ある変数からある変数にどれだけの因果的効果があるか推定する」ことを目指す学問なのですよね？以前に統計的因果探索の本を読みましたが、

統計的因果探索カテゴリーの記事一覧 - クッキーの日記

こちらの統計的因果探索は統計的因果推論の中でも「変数間の因果関係を推定する」ところに特化した分野であったのですよね。特に上で読んだ本は、線形非ガウスモデル（LiNGAM）を仮定して、その仮定の下で具体的に因果関係を推定する手法を取り扱っていました。では、今回読む本は何を扱っているのでしょう？書名も「統計的因果推論」ですが、より広い包括的な内容ということなのでしょうか？

いや、たぶんだけど、従来的な統計的因果推論の本では因果関係の推定は関心事ではないんじゃないかな。出発点が、「X から Y への因果的効果を知りたい（因果的効果はないこともあるかもしれないが、因果が逆向きであることはありえない）」なんだと思う。「目の前に因果関係が未知の変数がたくさんあって、この中から因果関係を見出したい」ではないんだと思う。今回読む本のまえがきにも、「その変数間に因果的意味での先行関係があるかどうかを判断するのは、（中略）決して困難な作業ではない」ってあるし、因果の向きはもうわかっているって感じがある。つまり、「新薬の血圧への効果を知りたい」「広告の売上高への効果を知りたい」などといった、因果があるなら向きが明らかな状況こそが考えられているんじゃないかな。「どの変数からどの変数かはわからないが見出したい」というのはごく近年の視点っぽくもあるし。

だから、従来的な統計的因果推論の本の関心事はやっぱり「如何にして X から Y への因果的効果のみをしぼり取るのか」＝「如何にして交絡因子の影響を排除するのか」なんだと思う。とすれば内容は必然的に、「交絡因子とは何か」「如何にその影響を排除するのか」になるんじゃないかな。このうち特に前者の方は理論寄りの本か実践寄りの本かで扱い方の軽重が違いそうだけど。

今回読む本の目次を列挙すると以下で、雑には2～5章が「交絡因子とは何か」、6～8章が「如何にその影響を排除するのか」っていえるのかな。2章に傾向スコアや5章に操作変数法の話があるから完全に分離された構成になっているわけじゃないけど。ともかく、有向グラフの言葉で交絡因子とは何かをきちんと取り扱っていくみたいだね。

古典的問題意識 ― 因果推論でやりたいことは何か。なぜ純粋な統計学では立ち向かえないのか。
因果推論の基礎概念
パス解析 ― 構造方程式モデル。
非巡回的有向独立グラフ
介入効果とその識別可能条件 ― 操作変数法も。
回帰モデルによる因果推論
条件付き介入と同時介入
非巡回的有向独立グラフの復元

それで、「如何にその影響を排除するのか」については実践寄りの本の方が様々な状況に即した手法が豊富なのかもしれないね。特に今回読む本は2004年の本ってこともあるし。例えば現在執筆されつつあってインターネット上で公開されている以下の本の第 II 部と第 III 部とか色々載っているのかなって思ったよ。

www.hsph.harvard.edu

なるほど。では統計的因果探索の本とは趣が異な…るということもないですね。あちらの本でもまず構造方程式モデルをやりましたよ。そこから先にどこに向かっていくのかは違うのでしょうが。

とにかく本編に入りましょう。といっても、実は以前に1章は読んだことがあるんです。

「統計的因果推論」勉強会「1. 古典的問題意識」（資料）

7ページ目の表が以下の誤植。
全国
合格不合格
$n_{1,1,+}$ $n_{1,2,+}$
$n_{2,1,+}$ $n_{2,2,+}$
9ページ目の2つ目の式の右辺の分母が $E[n_{i,j,k}]$ の誤植。

誰かと勉強会やってたんだ。

ひとりでやりました。勉強会という言葉に複数人でやるという含意はありません。

勉強会の会には人が集まるという含意があるんじゃないかな。

ただ、いまこの資料を見返すと、7ページ目でなぜ超幾何分布が出てくるのがわかりませんね。超幾何分布って、「白玉Ｋ個と赤玉 N-K 個を入れた袋から n 個の玉を取り出したときに白玉は何個含まれているでしょう？」といった分布なのですよね？「うどんが好きかどうかは合格／不合格に影響するか」とどう関係あるんですか。なんですかこの不親切な資料は。

だから、「うどん好きな人 $n_{1,+,k}$ 人とうどん嫌いな人 $n_{2,+,k}$ 人を入れた袋から $n_{+,1,k}$ 人を取り出して合格させたときにうどん好きな人は何人合格しているでしょう？」といった分布にしたがってくれないと困るよね。うどん好きかうどん嫌いかが合格するかどうかに影響しないなら。

https://twitter.com/CookieBox26/status/1189743024139468802（ノート）

2020-09-06 追記

人を袋に入れないでください。しかし、各都道府県の合格者数が超幾何分布にしたがうのはわかりました。わかりましたが、ではここからどうすればいいのでしょう？

ある県に対するカイ2乗検定は、統計量 $\chi_k^2 = \displaystyle \sum_{i=1}^2 \sum_{j=1}^2 \frac{\bigl( n_{i,j,k} - E[n_{i,j,k}] \bigr)^2}{E[n_{i,j,k}]} \; \left(E[n_{i,j,k}]=\frac{n_{i,+,k} n_{+,j,k}}{n_{+,+,k}}\right)$ が近似的に自由度1のカイ2乗分布にしたがうことを利用して、これが上側5%点より大きければ「うどん好きかうどん嫌いかは合格するかどうかに影響しない」を棄却するよね。それで、いま47都道府県あるから、 $\chi^2 = \sum_{k=1}^{47} \chi_k^2$ は近似的に自由度47のカイ2乗分布にしたがう。それはそうなんだけど、 $\chi^2$ が自由度47のカイ2乗の上側5%点より大きかったとして、そのときの結論は「『全ての県においてうどん好きかうどん嫌いかは合格するかどうかに影響しない』とはいえない」になるよね。これでいいならいいんだけど、もし示したいことが「うどん好きかどうかは合格するかどうかに影響する（都道府県によらず）」だったら、この結論はちょっと違うよね。

えっと、そうですね。「いずれかの県では影響する」と「すべての県で影響する」では違いますね。うーん、では、やはり都道府県の別は無視してカイ2乗検定をすればいいのでしょうか。最初から1つの2×2分割表にしてしまえば。

だからそれがユール・シンプソンのパラドクスにつながるんだって。そもそも都道府県別の合格率に差がある状況だったとき、合格率が低い県のうどん好きな人をたくさんサンプリングしてしまっていたら、本当はうどん好きな人は合格率が高いのにその効果がみえなくなるかもしれない。

どうしろと…。

（次回があれば）つづく

全国
合格	不合格
$n_{1,1,+}$	$n_{1,2,+}$
$n_{2,1,+}$	$n_{2,2,+}$