以下の論文を読みます。
論文の2ページ目に、先行研究の G2-LSTM が紹介されていますね。一見 LSTM に見えますが、入力ゲートと忘却ゲートが でなく で活性化されています。 というのは…先行研究の論文を参照すると4ページ目のProposition 3.1 で定義されていますね。
そっちの論文はコードが公開されているから、どんな手続きか知るにはコードを読むのがいいかもね。
に該当する箇所を動かしてみたのが下のノートだよ。ノイズ はさらにベルヌーイ分布でマスクされてから に足されているみたいだね。どれくらいマスクするかがハイパーパラメータだと思うけど。その先行研究の論文の Figure 1. が通常の LSTM の入力ゲートと忘却ゲートで、Figure 3. が G2-LSTM のそれだけど、G2-LSTM はゲートの開き具合にコントラストが付いているね。