論文読みメモ: Bivariate Beta-LSTM(その3)

以下の論文を読みます。

Kyungwoo Song, Joonho Jang, Seung jae Shin, Il-Chul Moon. Bivariate Beta LSTM. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, 2020. [1905.10521] Bivariate Beta-LSTM
※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等で指摘ください。
これまで: その1その2
f:id:cookie-box:20200531131544p:plain:w60

論文の2ページ目に、先行研究の G2-LSTM が紹介されていますね。一見 LSTM に見えますが、入力ゲートと忘却ゲートが  \sigma(\cdot) でなく G(\cdot, \tau) で活性化されています。G(\cdot, \tau) というのは…先行研究の論文を参照すると4ページ目のProposition 3.1 で定義されていますね。

 G(\alpha, \tau) \equiv  \displaystyle \sigma \left( \frac{\alpha + \log U - \log (1-U)}{\tau}\right)
U は一様分布  {\rm unif}(0, 1) にしたがう確率変数ですか。確率変数など入ってくると何が何やら…。

f:id:cookie-box:20200531131606p:plain:w60

そっちの論文はコードが公開されているから、どんな手続きか知るにはコードを読むのがいいかもね。

G(\cdot, \tau) に該当する箇所を動かしてみたのが下のノートだよ。ノイズ  \log U - \log (1-U) はさらにベルヌーイ分布でマスクされてから \alpha に足されているみたいだね。どれくらいマスクするかがハイパーパラメータだと思うけど。

その先行研究の論文の Figure 1. が通常の LSTM の入力ゲートと忘却ゲートで、Figure 3. が G2-LSTM のそれだけど、G2-LSTM はゲートの開き具合にコントラストが付いているね。

その4があればつづく