論文読みメモ: Bivariate Beta-LSTM(その2)

以下の論文を読みます。

Kyungwoo Song, Joonho Jang, Seung jae Shin, Il-Chul Moon. Bivariate Beta LSTM. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, 2020. [1905.10521] Bivariate Beta-LSTM
※ キャラクターは架空のものです。私の誤りは私に帰属します。お気付きの点がありましたらコメント等で指摘ください。
前回: その1
f:id:cookie-box:20200531131544p:plain:w60

昨日のあらすじはこうでしょうか。

  • LSTM のシグモイド型ゲートは、結局効果的に開閉しない(ゲートの値が0~1の間を動くというよりはほんの少ししか動かない)ことがあるし、入力ゲートと忘却ゲートは互いがどうなっているかを全く考慮していない。
  • なお、このような問題意識で、過去に以下のようなゲートが提案されている。
    • 温度パラメータ付きシグモイド型ゲート(シグモイド関数をステップ関数に近くする)
    • G2-LSTM(入力ゲートと忘却ゲートが確率的に 0 か 1 を取る)
    • CIFG-LSTM(入力ゲートと忘却ゲートが完全に -1 の相関をする)
2ページ目の後半からは、前置きといって RNN における確率的ゲートの話が掘り下げられていますね。そもそも決定論的モデルである RNN を確率的モデルにしたいというのは、過学習を防ぐためとか、多様な出力が得られるようにしたいというモチベーションであるとあります。RNN にランダムネスを取り入れられてきた例として以下が挙げられていますね。…うーん、ドロップアウトはモデルが一部の(中間)特徴に依存してしまうのを防ぐような話だと思うので確率的モデルといった向きではない気もしますし、VRNN に至ってはもう回帰や分類とは目的が違いますよね? VRNN って、「この曲はバッハの曲かどうか判定する」とか「バッハの曲が途中まで与えられたときに次の小節を予測する」とかではなくて、「バッハの曲っぽい曲が出てくる箱がほしい」だと思いますし。

f:id:cookie-box:20200531131606p:plain:w60

まあ、確率的な要素を取り入れて新しいことができるようになった例だと捉えればいいんじゃないのかな。次の段落からゲートの話になるけど、最初にパラメータを削減した話として以下が引用されているね。

この Simple Recurrent Unit: SRU(下図)は GRU 同様に自然言語処理の研究から提案されたネットワーク構造なんだね。ゲートが2つに集約されている点は GRU に似ているけど、GRU と違って出力と記憶セルが分離しているな…でも LSTM と違って前回のステップの出力は使用していない。出力が入力と記憶の線形和というのはかなり制約されているようにみえるけど、名前の通りこれ単体じゃなくてネットワーク構造の構成ユニットとして補助的に使うものなのかな。アブストラクトに Transformer に組み合わせることで翻訳タスクの精度を向上させたとあるね。
f:id:cookie-box:20200902234806p:plain:w560
再帰的ユニットにおいて、「何か足されながら再帰されていくもの」を記憶セルとよぶなら、LSTM、GRU、SRU は以下の表のように違っているようにみえる。絵をみて思っただけだから適当だけど…。
LSTMGRUSRU
記憶セルと出力が分離しているか 出力とは別に記憶セルを設置する もう記憶セルを出力として使用する やっぱり記憶セルから出力を分離する
記憶セルに足し合わせるもの(※)は 入力と前回出力の線形変換の和を活性化したもの 入力と前回出力リセットゲートに通したものの線形変換の和を活性化したもの 入力の線形変換
記憶セルと ※ の混合比を決めるのは 忘却ゲート(記憶セル側)、入力ゲート(※ 側) 更新ゲート 忘却ゲート
出力するのは 記憶セルを活性化して出力ゲートに通したもの 記憶セルをそのまま出力 記憶セルと入力をリセットゲートが決める混合比で混合したもの
まとめると 記憶セルを活用しながら現在のコンテクストを出力する 記憶セルを現在のコンテクストによせる コンテクストを出力するというより入力を modify する

f:id:cookie-box:20200531131544p:plain:w60

一口に再帰ネットワーク構造といっても、後段の Transformer と組み合わせて使うのか、それ自体を主力で使うのかで求められる役割は違いそうですね。今回の論文に戻ると、SRU の続きには複素再帰ニューラルネットの論文も紹介されていますね…この段落は「色々なゲート」といった雰囲気ですが、複素数といわれても複素数のデータをニューラルネットワークに通そうとしたことがないのでイメージがいまいち…。

その3があればつづく