NeurIPS 2021 pre-proceedings の(時)系列っぽいタイトル 【後編】

最終更新日: 2021-12-31
アブストラクトを読んだのみの想像であることに留意ください。お気付きの点はご指摘いただけますと幸いです。

後編のまとめ

  • 前編に引き続き「セルフアテンションの計算コスト問題」は多数みられました。
    • セルフアテンション行列のスパース化と低ランク近似を統一する手法がありました(Chen et al.)。
    • 長距離依存性は線形射影して次元削減する手法がありました(Zhu et al.)。
    • 長距離依存性を間引いてしまうのではなく、離れた単語たちの期待値のようなものを取りそれに対してアテンションすることで情報を取り漏らさんとする手法がありました(Ren et al.)。期待値の取り方はヒューリスティックになりそうなのと、本当に情報を取り漏らしてはいけないのかが気になります。
    • 相対位置エンコーディングと併用できる、FFT を利用した手法がありました(Luo et al.)。
    • 高速多重極法(FMM)を応用して近距離のアテンションと長距離のアテンションで作戦を変える研究がありました(Nguyen et al.)。
  • データの微視的なメカニズムを考慮するような向きの研究も引き続きみられました。
    • トランスフォーマーを生物学的記憶モデルの SDA と解釈する研究がありました(Bricken et al.)。
    • スイッチング線形動的システムで訓練済み RNN を解析する研究がありました(Smith et al.)。
    • 時系列が混合分布からなるとき、その混合分布を推定するためのコアセットを構築する研究がありました(Huang et al.)。
    • 状態にも時間にも依存してスイッチングするモデルの提案もありました(Ansari et al)。
  • トランスフォーマーへの(セルフアテンション計算効率化以外の)工夫も引き続きみられました。
    • ビジョントランスフォーマーのグリッド分割に、さらなるグリッド分割のトランスフォーマー結果を合わせようとする研究がありました(Han et al.)。入力データを粗いグリッドと細かいグリッドを組み合わせて処理するやり方は言語処理でもみられますが、色々なドメインで有効な場合がありそうです。
    • データにトランスフォーマーを適用する前に機械的にトレンド-季節性分解を行うことで、エネルギー、交通、経済、天気、疾病データの長期予測で効果を上げたようです(Wu et al.)。
    • 状態空間モデルと組み合わせることで時系列の長期予測や不確実性の推定を可能にしたようです(Tang et al.)。
    • 時系列データなどのために位相的アテンションを導入したようです(Zeng et al.)。
    • セルフアテンションの Softmax を撤廃して偏微分方程式を解くのに応用したようです(Cao)。用途の毛色が違うのでトランスフォーマーへの工夫、といった枠かは微妙ですが…。
    • 「系列内のある時刻の点から他の時刻の点へのアテンション」といった従来のアテンションを超えて「訓練データ内の他のデータへのアテンション」を導入したようです(Kossen et al.)。
  • RNN の理論的な理解を進める研究も引き続きみられ、上2件は類似してみえます。
    • RNN が学習できると保証される関数について、これまでの制約を一部撤廃して誤差の上限を示したり、制約がなくても多項式時間で学習できることを示したようです(Wang et al.)。
    • RNN が学習できると保証される関数について、制約を撤廃したようです(Panigrahi et al.)。
    • RNN に神経科学的なタスクを解かせることで RNN の性質を解析したようです(Turner et al.)。
    • 固定精度の RNN もチューリング完全であることを示したようです(Chung et al.)。
  • その他の研究で気になったものは以下です。
    • LSTM の計算量を削減するためのドロップアウトを構築する研究がありました(Sarma et al.)。
    • RNN の安定的なサブセットを特定する研究がありました(Zhang et al.)。
    • 時系列データのオンライン異常検知のルールを改善する研究がありました(Rebjock et al.)。
    • CNN とトランスフォーマーの頑健性の比較を再考する研究がありました(Bai et al.)。
    • ステップ間の誤差の相関を調整する研究がありました(Sun et al.)。
#16
Attention Approximates Sparse Distributed Memory(Bricken et al.)
トランスフォーマーのセルフアテンションが SDA: Sparse distributed memory ―生物学的な記憶のモデルの一つと解釈できるという話でしょうか。SDA 自体は割に古いのですね。

Sparse distributed memory - Wikipedia

…なぜアテンションは性能がよいのか、を考えるのは興味深いです。新たなアーキテクチャのアイデアにつながるでしょうか?
#17
Transformer in Transformer(Han et al.)
トランスフォーマー関連の論文でも画像認識系はカバーし切れないのでとばしていたのですが、名前が面白いので拾っておきましょう…つまり、Vision Transformer は画像をグリッド分割しますが、それにグリッド内をさらにグリッド分割してトランスフォーマーした特徴も追加しようというのですね。しかし、この論文2ページ目の図に既視感が…単語埋め込みと文字系列の特徴を組み合わせる方法です(右側)。複合語のような単語が多い言語で有効なのでしたっけ…? Vision Transformer でこれが有効かは扱う画像とグリッドサイズによりそうですが、Vision Transformer に暗いのでグリッドサイズの決定則がわからないです。
#18
Reverse engineering recurrent neural networks with Jacobian switching linear dynamical systems(Smith et al.)
「スイッチング線形動的システムで RNN をリバースエンジニアリングする」ということでしょうか。訓練済み RNN が如何に機能するかを理解しようとする研究はこれまでにもあって、不動点(RNN の不動点といういい方をするかわからないですが)の周りで線形化するなどがあったようですが、不動点の選択(?)や非線形な要素の考慮などに難があると。そこでスイッチング線形動的システムを導入して訓練済み RNN を表現するといい感じになるのですね? ただこのような手法の適用先はどのようなものになるのでしょうか。アブストラクトには生物学的データの解析に適用したとありますね。
#19
Scatterbrain: Unifying Sparse and Low-rank Attention(Chen et al.)
これはセルフアテンションの計算コストの話ですね。これまでにセルフアテンション行列のスパース化や低ランク近似が提案されてきましたが、それらを Unify というタイトルになっていますね。スパース化と低ランク近似はそれぞれに長所があり、双方の長所を活かした Scatterbrain なる手法を提案したと…非常に興味深いです。検証タスクには long-range-arena も含まれていますね。
#20
Long-Short Transformer: Efficient Transformers for Language and Vision(Zhu et al.)
LSTM のようなタイトルですね…トランスフォーマーの計算量を系列長の線形のオーダーに抑えたようですが、アブストラクトからはモデルの概要はよくわからず…論文3枚目の図をみると、短距離依存性はそのまま取り扱い、長距離依存性に対しては線形射影をするということなのでしょうか。常に線形射影して計算量を削減する手法はあったと思いますが、短距離な依存性はそのまま扱いたくはありますよね。
#21
On the Provable Generalization of Recurrent Neural Networks(Wang et al.)
ランダムに初期化した RNN の訓練と汎化について解析し、2点の進捗があったようですが…まず、これまでの RNN の理論解析ではある関数 f が学習できることを示したが \|X_l\| < \epsilon_f などといった制約が必要であったということなのせようか…?? しかし、本論文ではあるクラスの f に対しては制約なしに学習できる(入力系列長に対して多項式時間で)ことを示した、という理解でいいのでしょうか。もう1点も、f が線形でないときでもある条件を満たせば多項式時間で学習できることを示したといった雰囲気にみえますが…。これは、統計的学習理論の本ではニューラルネットは理論が確立していないからと記述が避けられていたのが徐々に確立してきたということなのでしょうか…?
#22
Learning and Generalization in RNNs(Panigrahi et al.)
これ、Wang et al. とだいぶ似ているような…著者が同じ? ではないですね。しかし、「RNN がある関数を学習できる」という理論保証に従来は関数への制約が必要だったが今回は制約がない場合でも学習できることを示す、というのは思い切りかぶっているようにみえますね。詳細に読むと異なるかもしれませんが、このような内容でかぶるのですね…。
#23
Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting(Wu et al.)
長期予測を見据えたトランスフォーマーの亜種でしょうか? 長期予測のためのパターンを見出すのはただでさえ難しい上に、セルフアテンションをスパースにする必要が生じるのでアテンションが制約されて厳しいといっていますね(スパースなセルフアテンションにしなければならないだろうというのは決め付けていますね?)。従来的なプレ処理を刷新してそこにそもそもニューラルネットを投入したようにいっていますが、ここでいう従来的なプレ処理とは…単に季節成分とトレンドですね、論文4枚目の絵をみるに。確かにこのようなプレ処理は機械的にやりたいです。エネルギー、交通、経済、天気、疾病データで検証しているのですね。この論文自体は長期予測とはいってもセルフアテンションの計算量削減の話ではないようですね。
#24
Combiner: Full Attention Transformer with Sparse Computation Cost(Ren et al.)
こちらはセルフアテンションの計算量削減の話ですね。タイトルで Full Attention といっているように、セルフアテンション行列を間引くようなことはしないようです。性能が出れば間引いてもいいとは思いますが…さておき、この論文でやっていることは、論文3ページの絵もみると、「離れた単語に対しては厳密にセルフアテンションするのではなく、離れた単語たちを先に重み付きで集約してそれに対してセルフアテンションする」といったものでしょうか。確かに離れた単語をばっさり切り捨ててはいないという意味で Full Attention のようですが…。この図の下段のうちどの集約の仕方を採用するかなどはヒューリスティックにもなりそうですね。
#25
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding(Luo et al.)
こちらもセルフアテンションの計算量削減の話ですが、既存研究の多くは「内積をとってからソフトマックスする」式にしか対応できないと主張しています。確かにスパース化も低ランク近似も基本的に内積計算を削減していると思いますが、それだと「相対位置エンコーディング(RPE)に対応できない」…RPE はこの論文のタイトルにもなっていますね。これを見据えたセルフアテンションの計算量削減をしたいと。RPE の原論文は以下でしょうか。

[1803.02155] Self-Attention with Relative Position Representations

論文の (5) 式が RPE なのでしょうか? 確かに内積ではなく内積+α になっていますが、この内積の部分に既存研究の手法を適用するのでは済まないのかわからないですね。単純なスパース化方式だと情報が抜けてしまって駄目そうな気もしますが…? まあそれで、この論文は高速フーリエ変換を用いて  \mathcal{O}( n \log n) を達成したと。どのように利用するのでしょうか。
#26
Coresets for Time Series Clustering(Huang et al.)
時系列のクラスタリング自体にあまり興味はないのですが、前編でも予め時系列をクラスタリングして予測精度を上げた研究がありましたし、アブストラクトを確認してみたいです。こちらもデータが混合分布からなると仮定して、その最尤推定のために必要なコアセットを構築するアルゴリズムを打ち出したと。コアセットというのは訓練データの部分集合の意味ですよね? 訓練データをすべてつかって混合分布の最尤推定をするのは、確かに大変そうですから、効果的なコアセットに絞ることは重要そうに思えます。
#27
Probabilistic Transformer For Time Series Analysis(Tang et al.)
「時系列分析のための確率的トランスフォーマー」というタイトルですが、確率的にすると特に時系列分析によいということなのでしょうか、興味深いです。何でも、状態空間モデルとトランスフォーマーを組み合わせる……? 確率的とはそういうことですか。
#28
Structured in Space, Randomized in Time: Leveraging Dropout in RNNs for Efficient Training(Sarma et al.)
これは、LSTM の改善ですね! ドロップアウトを活用して LSTM の訓練時と推論時すらも(?)計算量を削減するという研究でしょうか。計算量を削減するレベルですからおそらくドラスティックにドロップアウトするのでしょうが、今回構築したというドロップアウトパターンがどのようなものか気になります。
#29
Topological Attention for Time Series Forecasting(Zeng et al.)
目を引くタイトルである上に時系列への適用を前提としたものですね。何せ「位相的アテンション」ですから、訓練データ間の「距離がどれくらいか」を気にするのではなく、おそらく「ある程度のトレランス内で接しているかどうか」を気にするということでしょう。入力空間の一定領域内を同一視してしまうようなやり方は言語(の分散表現)にはそぐわなさそうに思いますが、時系列では有効なこともありそうです、わかりませんが。この研究がどのように位相的にアテンションするかはきちんと読まなければわかりませんが、内積計算部分が modify されるのではないでしょうか。…しかし、「位相的にやってみれば?」というのは、RNN や CNN ではないトランスフォーマーにだから投げ付けられる発想だと思いますが(RNN や CNN にも位相構造を活かした亜種があるか存じ上げませんが)、この論文が初出なのでしょうか…?
#30
Choose a Transformer: Fourier or GalerkinCao
関係ないですが今年の(時)系列っぽいタイトルを眺める企画を開始して以来の単著論文ですね…そしてタイトルは「トランスフォーマーを選べ」? この論文で取り組もうとするタスクは偏微分方程式を解くことのようですが…そもそもニューラルネット偏微分方程式を解くとは、偏微分方程式からその解への写像ニューラルネットで近似するということでいいのでしょうか。タイトルの Fourier or Galerkin とは何なのでしょうか。アブストラクトは「セルフアテンションを Softmax しない Galerkin Transformer をつくってすごくよかった(名前の由来はそのセルフアテンション層が Petrov-Galerkin 射影とみなせるから)」といった感じに読めますが…。
#31
Charting and Navigating the Space of Solutions for Recurrent Neural Networks(Turner et al.)
神経科学色が強そうな論文ですが、機械学習面の提言もしているのですよね…? RNN に神経科学的なタスクを解かせるのですが、解をあるタイプに分類すると、RNN はそのタイプが分類できて、それが機械学習的にも神経科学的にもそれぞれ意味があるといったようにみえます…?
#32
SBO-RNN: Reformulating Recurrent Neural Networks via Stochastic Bilevel Optimization(Zhang et al.)
こちらの SBO-RNN は、RNN の中でも安定的に学習できる構造を突き止め、そのサブセットに SBO-RNN と名付けたということなのでしょうか? いくつかのベンチマークで優れた性能を示したということですが、普通の(?)RNN より提案した構造が優位性をもっていたのでしょうか。コードが github に公開されているようなのでコードをみるのが早そうですね。
#33
Online false discovery rate control for anomaly detection in time series(Rebjock et al.)
時系列データのオンライン異常検知の話ですが、「FDRC ルール」とは読んで字のごとく偽陽性率を抑えるためのルール、なのでしょうか…? FDRC ルール自体は既に提案されているものがあるが場合によって検出力が低くなってしまうのでそれを克服した、ということなのでしょうか。
#34
Are Transformers more robust than CNNs?(Bai et al.)
タイトルが問いかけですが、こういう場合って主張は「いや、違う」になるんでしょうか。この研究も「トランスフォーマーの方が CNN より頑健だといわれるがそうでもないぞ」といった向きですね。列挙してから気付きましたがこれ GitHubリポジトリ名が画像認識系っぽいですね…しかし、アブストラクト内で画像認識タスクについてはとはいっていないのでわかりません。ただ、敵対的攻撃に対してロバストといったときどのような敵対的攻撃なのかやはり気になりますね。また、トランスフォーマーと CNN をどのような条件で比較しているのかも気になります。前編の #2 によればトランスフォーマーは実は無用な(?)パラメータが多いというのでもし CNN とパラメータ数を合わせると不利そうに思えます。
#35
Turing Completeness of Bounded-Precision Recurrent Neural Networks(Chung et al.)
既に RNN がチューリング完全であることが証明されていたのですね…存じ上げませんでした…。しかし、既存の証明では無限制度を仮定していたがこの論文では固定精度でそれを示し…いえ、シミュレーションしたのでしょうか? チューリング完全性の解析に暗いのでよくわからないです…。
#36
Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learning(Kossen et al.)
検証したのがテーブルデータや CIFAR-10 であって系列データといった向きのデータではなさそうですが、タイトルが気になりました。Self-Attention Between Datapoints というのは、言語データに喩えるなら、単語から文章内の他の単語へアテンションするのではなく、文章から他の文章へアテンションするということなのでしょうか。それって Self なんでしょうか…? それはさておき、本当に「データセット全体を入力とする」のであれば訓練や推論のコストが膨大になりそうですが…?
#37
FMMformer: Efficient and Flexible Transformer via Decomposed Near-field and Far-field Attention(Nguyen et al.)
高速多重極法(FMM)を応用したトランスフォーマーですか。ロングレンジアリーナと言語モデルで検証したのですね。近距離のアテンションと長距離のアテンションで作戦を変えるというのは #24 と共通です。そのような場合、何をもって近距離と長距離とするのかが気になりますが、この FMM 方式だとどうなるのでしょうか。
#38
Adjusting for Autocorrelated Errors in Neural Networks for Time Series(Sun et al.)
通常ニューラルネットで時系列データを学習するときにステップ間で誤差に相関はないとしていますが、そこを調整するぞと。それで検証した様々なデータの全てで性能が向上したのですね。どのようなデータでどのように性能が変化したのか気になります。
#39
Deep Explicit Duration Switching Models for Time Series(Ansari et al.)
提案モデル RED-SDS: Recurrent Explicit Duration Switching Dynamical System は状態にも時間にも依存してスイッチングするのですね。
おわり