NeurIPS 2021 pre-proceedings の(時)系列っぽいタイトル 【前編】

最終更新日: 2021-12-22
アブストラクトを読んだのみの想像であることに留意ください。お気付きの点はご指摘いただけますと幸いです。

前編のまとめ

「セルフアテンションの計算コスト問題」は引き続き人気(?)なテーマである一方、「巨視的な現象をニューラルネットで agnostic に学習するのではなく、微視的なメカニズムや成分を考慮したい」という研究もいくつかみられたように思えました(線形時不変連続時間システム、微分方程式群、混合分布)。
  • 「セルフアテンションの計算量に如何に対処すべきか」といった研究が複数みられました。
    • Chen et al. は特にセルフアテンション行列の内積計算にカーネル法の計算効率化のアプローチである Nyström 法を導入したようです。であればカーネル法から他のアプローチも輸入できるのでしょうか。
    • 対して Ma et al. は、大きなセルフアテンション行列の内積を高速に計算しようとするのではなく、そもそも入力系列の長さの方を一旦短く縮めてしまおうといったもののようです。
    • さらに対して Dutta et al. は、「セルフアテンション層を L 回繰り返すとき、毎回内積計算してセルフアテンション行列を求めるのではなく、初期セルフアテンション行列を時間発展させていけ」といったもののようです。
    • Jaszczur et al. は、全結合の結果を疎にするマスクを噛ませてそのマスクのパターンも学ぶことで「よしこの成分はなくても推論できるな」というもののようにみえます。
  • 「セルフアテンションを正則化して性能を向上させよう」といった研究もみられました。
    • Zhang et al. は「アライメントアテンション」―各ヘッドにおける Q と K の分布を一致させるような訓練をすることで性能を向上させたようです。
  • 「そもそもトランスフォーマーはそんなにパラメータが必要なのか」といった研究もみられました。
    • Panahi et al. はパラメータ行列の因数分解の方を学習しパラメータ数を10倍以上削減したようです。しかし訓練時間や推論時間はむしろオーバーヘッドであるようでこの研究の実務的な有効性はわかりません…が、ディープモデルのパラメータ数は削減しようとすれば10倍以上削減できるのなら、パラメータ数をそろえたモデルの比較などというのはあまり意味がなさそうですね。
  • トランスフォーマーの構造自体を再考する研究もみられました。
  • その他の系列モデルの原理、性能向上に関する研究もみられました。
    • 繰り返し自身のインスタンスを生成して RNN の再帰の度合いを時間変化させていく研究もみられました(Zhang et al.)。
    • RNN がカーネル法とみなせるという研究もみられました(Fermanian et al.)。
    • RNN の隠れ層にノイズを添加して訓練することでロバストにする研究もみられました(Lim et al.)。
    • 線形時不変連続時間システムを実装したモデルもみられました(Gu et al.)。
    • 微分方程式群で記述されるモデルへのベイズフィルタの適用もありました(Schmidt et al.)。
    • データにガウス過程モデルを適用するためのカーネルを選択するのに、まるで画像にキャプションを付けるようにトランスフォーマーを利用する方法も提案されました(Simpson et al.)。
    • 時系列の値が混合分布から生成されていると考え、個々の成分を特定しようとするアプローチもみられました(Zhu et al.)。
f:id:cookie-box:20211106181951p:plain:w120

f:id:cookie-box:20211026122630p:plain:w60

NeurIPS 2021 pre-proceedings から最近の研究をみていきましょ…2334本!?

f:id:cookie-box:20211104100722p:plain:w60

多すぎるのでタイトルで絞り込みましょう。適当に以下のパターンとして…それでも155本…。

time series|sequential|rnn|recurrent|transformer|attention|state space

まあ(時)系列データを扱うモデルが中心話題になっていなさそうなものはとばしてメモしていきましょう。なお、以下のメモはアブストラクトを読んだのみの想像であることに留意ください。

#1
Combining Recurrent, Convolutional, and Continuous-time Models with Linear State Space Layers(Gu et al.)
「RNN、CNN、連続時間モデルの組み合わせ」――のっけからなんてわくわくするタイトルなのでしょう! 「RNN、CNN、ニューラル微分方程式はそれぞれに強みとトレードオフがある」…それぞれの強みを活かそうというのですね? 何でも「線形状態空間層(LSSL)」が uy に変換する――u はシステムの入力で y はシステムの出力ですね。以下の記事での表記と同じです。

雑記: システムの可制御性・可観測性の話 - クッキーの日記

アブストラクト内の数式は線形時不変連続時間システムですね。そのようなシステムたる「線形状態空間層」が「RNN、CNN、連続時間モデルの組み合わせ」になっているという主張でしょうか。また、システムが長期記憶をもつために数式内の行列 A がどうあるべきかも示されているようですね。モデルの有効性を検証したのは無理やり系列データ化した画像の分類タスク(おそらく)、医療系の回帰タスク、音声分類タスクのようです。しかし、今回のシステムと Neural ODE の関係は、今回のシステムの時間発展の式の特殊なケースと Neural ODE の特殊なケースが一致するというくらいなのでしょうか…。
#2
Shapeshifter: a Parameter-efficient Transformer using Factorized Reshaped Matrices(Panahi et al.)
行列を因数分解して Reshape することで性能はそのままに学習対象パラメータを絞ったトランスフォーマー、といったタイトルにみえますが――言語モデルでは実はパラメータ空間のほんの一部しか学習していないというのがわかってきているのですか? 「宝くじ仮説」というのですね。仮説ということは実験的に検証されているが理論的に未解明ということなのでしょうか。おそらくこの論文のモデルはエンベディング層、全結合層、セルフアテンション層のパラメータの行列分解の方をこそ学習するのですね? それでも上手く学習できるのでしょうか? また、「パラメータを10倍以上削減して同じ性能が得られる」ことのメリットはどこに置かれているのでしょうか…論文をあたると訓練時間や推論時間はむしろオーバーヘッドというようにみえますね…パラメータサイズだけ小さくなったことにそこまでありがたみがあるとは思えず…真に有効なパラメータサイズはより小さいことを実証した側面が大きいのでしょうか。
#3
Skyformer: Remodel Self-Attention with Gaussian Kernel and Nystr\"om Method(Chen et al.)
スカイフォーマー――そこはかとなくスターウォーズっぽいトランスフォーマーですね。トランスフォーマーはセルフアテンション層が計算コストのボトルネックとなっていますが、カーネルマシンもまた内積計算がボトルネックになっている、と。そうですね、カーネル法のグラム行列のサイズはデータサイズに応じて n \times n になるわけですから。だから対処法として Nyström 近似などが…って、タイトル中の文字化けしているのこれですね。Nyström 近似を適用できるようにして適用したトランスフォーマーがスカイフォーマーであると。なぜスカイフォーマなのかちょっと気になったので論文を覗いてみると Symmetrization of Kernelized attention for NYström method ですか…スターウォーズは関係なかったのですね…。しかし、Nyström 近似以外のカーネル法のデータサイズへの対処法もトランスフォーマーへの適用の余地があるということなのでしょうか。
#4
Luna: Linear Unified Nested Attention(Ma et al.)
こちらも前の論文同様セルフアテンション層の計算コストを何とかしようというものですが、セルフアテンション行列を素早く計算しようというよりは、入力系列の長さを一旦縮めて、その後で元に戻そうとしていますね? 「系列の長さが長いなら短くすればいいじゃない」ということなのでしょうか…モデル構造が気になりますね…。
#5
Framing RNN as a kernel method: A neural ODE approach(Fermanian et al.)
RNN がある再生核ヒルベルト空間におけるカーネル法と捉えることができるといったアブストラクトですね…そのことを通して色々なクラスの RNN の汎化性能と安定性を理論保証できると…カーネル法と捉えられるというのは興味深いですが、それによって理論保証以上のことをできるでしょうか…例えば計算効率化など…。
#6
Noisy Recurrent Neural Networks(Lim et al.)
シンプルすぎるタイトルですがいったい何をされたのでしょうか…RNN の隠れ状態にノイズを添加して訓練することでロバスト性が向上すると…た、確かにノイズ RNN ではありますね…。ノイズを添加してロバスト性を向上というと以下を思い出します。ただし以下は入力値にランダムノイズを加えた出力の中央値に対する損失を損失として学習というものでしたが…。

Evaluating Robustness of Predictive Uncertainty Estimation: Are Dirichlet-based Models Reliable?

#7
Redesigning the Transformer Architecture with Insights from Multi-particle Dynamical Systems(Dutta et al.)
トランスフォーマーの「マルチヘッドセルフアテンション」と「ポイントワイズ変換(特徴系列を同一の長さの特徴系列にすることを指しているのでしょうか?)」に対して近似を適用したと。パラメータ空間を削減したようですがどうやったのでしょうか。セルフアテンションのプロセスを互いに相互作用する粒子の力学系になぞらえていますがアブストラクトからモデルを推し量るのは私には難しいですね…論文を覗いてみましょう。5ページ目に提案モデルらしい絵がありますね。確かに内積計算をしているのが Initial attention の箇所のみで、続く L 回のセルフアテンションでは内積計算を回避しているようにみえます。セルフアテンション行列が時間発展していくのだ、ということですか…。
#8
Searching for Efficient Transformers for Language Modeling(So et al.)
こちらの論文は、トランスフォーマーの計算コスト削減にもはやアーキテクチャの再考というアプローチをしていますね。そのように特定されたアーキテクチャを Primer とよんでいるようですが、どのようなものなのでしょうか。学習コストが3分の1にまで削減されたということですが…。
#9
Self-Instantiated Recurrent Units with Dynamic Soft Recursion(Zhang et al.)
これは、「再帰ニューラルネットによる再帰って動的じゃないよね」ということなのでしょうか…過去の情報を取り入れるか否かなどをゲート構造で制御するものもあると思いますがそれでは足りないということなのでしょうか。提案モデルは Self-IRU といって、繰り返し自身のインスタンスを生み出す…? 毎時刻に適用される RNN がその時刻用にカスタムメイドされるのでしょうか。自由度が高そうですが訓練時間や推論時間も気になりますね。
#10
Pay Attention to MLPs(Liu et al.)
gMLP――ゲーティングを付けた MLP で Transformer と同程度の性能が得られると。これによって画像認識ではセルフアテンションが重要でないこともわかったとありますね。gMLP のモデル構造が気になります。
#11
Sparse is Enough in Scaling Transformers(Jaszczur et al.)
こちらもトランスフォーマーの計算コストの高さに焦点を当てていますが…トランスフォーマー内の全ての層をスパースな亜種にして Scaling Transformer を編み出したということなのでしょうか。スパースにしても同じ性能が得られて長文要約なども高速に処理できるようになると…。論文をチラ見すると、controller なる、ベクトルであって多くの成分が0で少しの成分が1であるようなものを全結合の結果に噛ませているのでしょうか。訓練時にこの controller も学習することで「この成分は間引いてもいいじゃん」というのを学んでおき、推論時はそもそもその成分の計算を端折るという戦略なんでしょうか(わかりません)。だとすると訓練時間は短くならないというかむしろ長くなるが推論時間が有利になるのでしょうか…? あ、いえ、Q, K がスパースならばセルフアテンション行列の計算も有利ですから訓練時間にも有利ではありますね…?
#12
Kernel Identification Through Transformers(Simpson et al.)
トランスフォーマーによるカーネル同定、でしょうか。ガウス過程モデルを適用するときにカーネル選択は重要ですが、トランスフォーマーでどうやってカーネルを探索するのでしょうか。というか通常のカーネル探索方法もよく知らなかったです…。Figure 1 を覗いてみると、正解付きの訓練データをすべて投入してエンコードしてデコードすると Matern 1/2 + Matern 3/2 + RBF × Matern 1/2 といったカーネルが出力されているように確かにみえますね。これが画像にキャプションを付けるモデルと似ているのでしょうか。確かにデータの構造をよく表現するカーネルはデータのキャプションのようなものでしょうか(?)。
#13
A Probabilistic State Space Model for Joint Inference from Differential Equations and Data(Schmidt et al.)
複数の微分方程式で記述されるモデル―例えばシステムモデルや観測モデルが微分方程式で記述されているようなイメージでしょうか?―における推論は計算コストが高く、数値ソルバーとの相性が悪いと。しかし最近では常微分方程式ベイズフィルタで解く方法が打ち出されてきているので、隠れ変数がある状態空間モデルに適用できる…ということでしょうか。ODE を解くのと同様のコストで拡張カルマンフィルタできると。COVID-19 データに SIRD モデルを適用して検証しているのですね。
#14
MixSeq: Connecting Macroscopic Time Series Forecasting with Microscopic Time Series Data(Zhu et al.)
時系列の予測モデルは往々にしてマクロをモデル化していてミクロなモデルがないといっていますね。マクロ・ミクロというとマクロ経済とミクロ経済のような…いや、ここでは国の経済に対する個人の取引のような話ではなく、個別の確率分布が混合されて予測対象の時系列をつくり上げているということでしょうか(同じような話かもしれませんが)。そのようなモデルが提案モデル MixSeq であると。個別の成分はクラスタリングで決めるのでしょうか? アブストラクトでは触れられていませんが、このようなアプローチは解釈性にも寄与するのではないでしょうか…しかしクラスタリングした結果がそう解釈できるとも限らないですね…。
#15
Alignment Attention by Matching Key and Query Distributions(Zhang et al.)
トランスフォーマーのマルチヘッドさを活用する話でしょうか? トランスフォーマーはマルチヘッドな構成をしていますがその訓練時に「隣のヘッドと異なる表現を学習してシナジーを発揮してくださいね」と明示的に指示するでもないのって気になりますよね。この論文が提案するのはその名も「アライメントアテンション」…各ヘッドの K と Q の分布を一致させるのですか…原理的にどんな意味が…ヘッドごとにセルフアテンションの強さのようなものが異なると困るということでしょうか。英文を和文に翻訳するのに、ビジネス英語に強い A さんと日常会話に強い B さんを連れてきて、「あなたたちの専門からみて、1単語目に影響を及ぼす単語に色鉛筆で色を塗ってください」と指示したとして、コントラストの付け方がからっきし違うと困るというか…いや、こんな話ではないかもしれませんが。提案モデルは様々なタスクで効果を発揮したとのことですが、不確実性の推定やクロスドメインの汎化というのが気になりますね。敵対的攻撃にもロバストであったということですが、敵対的攻撃とうたう論文における敵対的攻撃は多種多様ですよね(?)。
後編につづく