最終更新日: 2021-12-31
アブストラクトを読んだのみの想像であることに留意ください。お気付きの点はご指摘いただけますと幸いです。
おわり
アブストラクトを読んだのみの想像であることに留意ください。お気付きの点はご指摘いただけますと幸いです。
後編のまとめ
|
#16 Attention Approximates Sparse Distributed Memory(Bricken et al.) |
トランスフォーマーのセルフアテンションが SDA: Sparse distributed memory ―生物学的な記憶のモデルの一つと解釈できるという話でしょうか。SDA 自体は割に古いのですね。 Sparse distributed memory - Wikipedia …なぜアテンションは性能がよいのか、を考えるのは興味深いです。新たなアーキテクチャのアイデアにつながるでしょうか? |
||
---|---|---|---|
#17 Transformer in Transformer(Han et al.) |
|
||
#18 Reverse engineering recurrent neural networks with Jacobian switching linear dynamical systems(Smith et al.) |
「スイッチング線形動的システムで RNN をリバースエンジニアリングする」ということでしょうか。訓練済み RNN が如何に機能するかを理解しようとする研究はこれまでにもあって、不動点(RNN の不動点といういい方をするかわからないですが)の周りで線形化するなどがあったようですが、不動点の選択(?)や非線形な要素の考慮などに難があると。そこでスイッチング線形動的システムを導入して訓練済み RNN を表現するといい感じになるのですね? ただこのような手法の適用先はどのようなものになるのでしょうか。アブストラクトには生物学的データの解析に適用したとありますね。 | ||
#19 Scatterbrain: Unifying Sparse and Low-rank Attention(Chen et al.) |
これはセルフアテンションの計算コストの話ですね。これまでにセルフアテンション行列のスパース化や低ランク近似が提案されてきましたが、それらを Unify というタイトルになっていますね。スパース化と低ランク近似はそれぞれに長所があり、双方の長所を活かした Scatterbrain なる手法を提案したと…非常に興味深いです。検証タスクには long-range-arena も含まれていますね。 | ||
#20 Long-Short Transformer: Efficient Transformers for Language and Vision(Zhu et al.) |
LSTM のようなタイトルですね…トランスフォーマーの計算量を系列長の線形のオーダーに抑えたようですが、アブストラクトからはモデルの概要はよくわからず…論文3枚目の図をみると、短距離依存性はそのまま取り扱い、長距離依存性に対しては線形射影をするということなのでしょうか。常に線形射影して計算量を削減する手法はあったと思いますが、短距離な依存性はそのまま扱いたくはありますよね。 | ||
#21 On the Provable Generalization of Recurrent Neural Networks(Wang et al.) |
ランダムに初期化した RNN の訓練と汎化について解析し、2点の進捗があったようですが…まず、これまでの RNN の理論解析ではある関数 が学習できることを示したが などといった制約が必要であったということなのせようか…?? しかし、本論文ではあるクラスの に対しては制約なしに学習できる(入力系列長に対して多項式時間で)ことを示した、という理解でいいのでしょうか。もう1点も、 が線形でないときでもある条件を満たせば多項式時間で学習できることを示したといった雰囲気にみえますが…。これは、統計的学習理論の本ではニューラルネットは理論が確立していないからと記述が避けられていたのが徐々に確立してきたということなのでしょうか…? | ||
#22 Learning and Generalization in RNNs(Panigrahi et al.) |
これ、Wang et al. とだいぶ似ているような…著者が同じ? ではないですね。しかし、「RNN がある関数を学習できる」という理論保証に従来は関数への制約が必要だったが今回は制約がない場合でも学習できることを示す、というのは思い切りかぶっているようにみえますね。詳細に読むと異なるかもしれませんが、このような内容でかぶるのですね…。 | ||
#23 Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting(Wu et al.) |
長期予測を見据えたトランスフォーマーの亜種でしょうか? 長期予測のためのパターンを見出すのはただでさえ難しい上に、セルフアテンションをスパースにする必要が生じるのでアテンションが制約されて厳しいといっていますね(スパースなセルフアテンションにしなければならないだろうというのは決め付けていますね?)。従来的なプレ処理を刷新してそこにそもそもニューラルネットを投入したようにいっていますが、ここでいう従来的なプレ処理とは…単に季節成分とトレンドですね、論文4枚目の絵をみるに。確かにこのようなプレ処理は機械的にやりたいです。エネルギー、交通、経済、天気、疾病データで検証しているのですね。この論文自体は長期予測とはいってもセルフアテンションの計算量削減の話ではないようですね。 | ||
#24 Combiner: Full Attention Transformer with Sparse Computation Cost(Ren et al.) |
こちらはセルフアテンションの計算量削減の話ですね。タイトルで Full Attention といっているように、セルフアテンション行列を間引くようなことはしないようです。性能が出れば間引いてもいいとは思いますが…さておき、この論文でやっていることは、論文3ページの絵もみると、「離れた単語に対しては厳密にセルフアテンションするのではなく、離れた単語たちを先に重み付きで集約してそれに対してセルフアテンションする」といったものでしょうか。確かに離れた単語をばっさり切り捨ててはいないという意味で Full Attention のようですが…。この図の下段のうちどの集約の仕方を採用するかなどはヒューリスティックにもなりそうですね。 | ||
#25 Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding(Luo et al.) |
こちらもセルフアテンションの計算量削減の話ですが、既存研究の多くは「内積をとってからソフトマックスする」式にしか対応できないと主張しています。確かにスパース化も低ランク近似も基本的に内積計算を削減していると思いますが、それだと「相対位置エンコーディング(RPE)に対応できない」…RPE はこの論文のタイトルにもなっていますね。これを見据えたセルフアテンションの計算量削減をしたいと。RPE の原論文は以下でしょうか。 [1803.02155] Self-Attention with Relative Position Representations 論文の (5) 式が RPE なのでしょうか? 確かに内積ではなく内積+α になっていますが、この内積の部分に既存研究の手法を適用するのでは済まないのかわからないですね。単純なスパース化方式だと情報が抜けてしまって駄目そうな気もしますが…? まあそれで、この論文は高速フーリエ変換を用いて を達成したと。どのように利用するのでしょうか。 |
||
#26 Coresets for Time Series Clustering(Huang et al.) |
時系列のクラスタリング自体にあまり興味はないのですが、前編でも予め時系列をクラスタリングして予測精度を上げた研究がありましたし、アブストラクトを確認してみたいです。こちらもデータが混合分布からなると仮定して、その最尤推定のために必要なコアセットを構築するアルゴリズムを打ち出したと。コアセットというのは訓練データの部分集合の意味ですよね? 訓練データをすべてつかって混合分布の最尤推定をするのは、確かに大変そうですから、効果的なコアセットに絞ることは重要そうに思えます。 | ||
#27 Probabilistic Transformer For Time Series Analysis(Tang et al.) |
「時系列分析のための確率的トランスフォーマー」というタイトルですが、確率的にすると特に時系列分析によいということなのでしょうか、興味深いです。何でも、状態空間モデルとトランスフォーマーを組み合わせる……? 確率的とはそういうことですか。 | ||
#28 Structured in Space, Randomized in Time: Leveraging Dropout in RNNs for Efficient Training(Sarma et al.) |
これは、LSTM の改善ですね! ドロップアウトを活用して LSTM の訓練時と推論時すらも(?)計算量を削減するという研究でしょうか。計算量を削減するレベルですからおそらくドラスティックにドロップアウトするのでしょうが、今回構築したというドロップアウトパターンがどのようなものか気になります。 | ||
#29 Topological Attention for Time Series Forecasting(Zeng et al.) |
目を引くタイトルである上に時系列への適用を前提としたものですね。何せ「位相的アテンション」ですから、訓練データ間の「距離がどれくらいか」を気にするのではなく、おそらく「ある程度のトレランス内で接しているかどうか」を気にするということでしょう。入力空間の一定領域内を同一視してしまうようなやり方は言語(の分散表現)にはそぐわなさそうに思いますが、時系列では有効なこともありそうです、わかりませんが。この研究がどのように位相的にアテンションするかはきちんと読まなければわかりませんが、内積計算部分が modify されるのではないでしょうか。…しかし、「位相的にやってみれば?」というのは、RNN や CNN ではないトランスフォーマーにだから投げ付けられる発想だと思いますが(RNN や CNN にも位相構造を活かした亜種があるか存じ上げませんが)、この論文が初出なのでしょうか…? | ||
#30 Choose a Transformer: Fourier or Galerkin(Cao) |
関係ないですが今年の(時)系列っぽいタイトルを眺める企画を開始して以来の単著論文ですね…そしてタイトルは「トランスフォーマーを選べ」? この論文で取り組もうとするタスクは偏微分方程式を解くことのようですが…そもそもニューラルネットで偏微分方程式を解くとは、偏微分方程式からその解への写像をニューラルネットで近似するということでいいのでしょうか。タイトルの Fourier or Galerkin とは何なのでしょうか。アブストラクトは「セルフアテンションを Softmax しない Galerkin Transformer をつくってすごくよかった(名前の由来はそのセルフアテンション層が Petrov-Galerkin 射影とみなせるから)」といった感じに読めますが…。 | ||
#31 Charting and Navigating the Space of Solutions for Recurrent Neural Networks(Turner et al.) |
神経科学色が強そうな論文ですが、機械学習面の提言もしているのですよね…? RNN に神経科学的なタスクを解かせるのですが、解をあるタイプに分類すると、RNN はそのタイプが分類できて、それが機械学習的にも神経科学的にもそれぞれ意味があるといったようにみえます…? | ||
#32 SBO-RNN: Reformulating Recurrent Neural Networks via Stochastic Bilevel Optimization(Zhang et al.) |
こちらの SBO-RNN は、RNN の中でも安定的に学習できる構造を突き止め、そのサブセットに SBO-RNN と名付けたということなのでしょうか? いくつかのベンチマークで優れた性能を示したということですが、普通の(?)RNN より提案した構造が優位性をもっていたのでしょうか。コードが github に公開されているようなのでコードをみるのが早そうですね。 | ||
#33 Online false discovery rate control for anomaly detection in time series(Rebjock et al.) |
時系列データのオンライン異常検知の話ですが、「FDRC ルール」とは読んで字のごとく偽陽性率を抑えるためのルール、なのでしょうか…? FDRC ルール自体は既に提案されているものがあるが場合によって検出力が低くなってしまうのでそれを克服した、ということなのでしょうか。 | ||
#34 Are Transformers more robust than CNNs?(Bai et al.) |
タイトルが問いかけですが、こういう場合って主張は「いや、違う」になるんでしょうか。この研究も「トランスフォーマーの方が CNN より頑健だといわれるがそうでもないぞ」といった向きですね。列挙してから気付きましたがこれ GitHub のリポジトリ名が画像認識系っぽいですね…しかし、アブストラクト内で画像認識タスクについてはとはいっていないのでわかりません。ただ、敵対的攻撃に対してロバストといったときどのような敵対的攻撃なのかやはり気になりますね。また、トランスフォーマーと CNN をどのような条件で比較しているのかも気になります。前編の #2 によればトランスフォーマーは実は無用な(?)パラメータが多いというのでもし CNN とパラメータ数を合わせると不利そうに思えます。 | ||
#35 Turing Completeness of Bounded-Precision Recurrent Neural Networks(Chung et al.) |
既に RNN がチューリング完全であることが証明されていたのですね…存じ上げませんでした…。しかし、既存の証明では無限制度を仮定していたがこの論文では固定精度でそれを示し…いえ、シミュレーションしたのでしょうか? チューリング完全性の解析に暗いのでよくわからないです…。 | ||
#36 Self-Attention Between Datapoints: Going Beyond Individual Input-Output Pairs in Deep Learning(Kossen et al.) |
検証したのがテーブルデータや CIFAR-10 であって系列データといった向きのデータではなさそうですが、タイトルが気になりました。Self-Attention Between Datapoints というのは、言語データに喩えるなら、単語から文章内の他の単語へアテンションするのではなく、文章から他の文章へアテンションするということなのでしょうか。それって Self なんでしょうか…? それはさておき、本当に「データセット全体を入力とする」のであれば訓練や推論のコストが膨大になりそうですが…? | ||
#37 FMMformer: Efficient and Flexible Transformer via Decomposed Near-field and Far-field Attention(Nguyen et al.) |
高速多重極法(FMM)を応用したトランスフォーマーですか。ロングレンジアリーナと言語モデルで検証したのですね。近距離のアテンションと長距離のアテンションで作戦を変えるというのは #24 と共通です。そのような場合、何をもって近距離と長距離とするのかが気になりますが、この FMM 方式だとどうなるのでしょうか。 | ||
#38 Adjusting for Autocorrelated Errors in Neural Networks for Time Series(Sun et al.) |
通常ニューラルネットで時系列データを学習するときにステップ間で誤差に相関はないとしていますが、そこを調整するぞと。それで検証した様々なデータの全てで性能が向上したのですね。どのようなデータでどのように性能が変化したのか気になります。 | ||
#39 Deep Explicit Duration Switching Models for Time Series(Ansari et al.) |
提案モデル RED-SDS: Recurrent Explicit Duration Switching Dynamical System は状態にも時間にも依存してスイッチングするのですね。 |