雑記: NeurIPS 2020 pre-proceedings の「シーケンス」を含むタイトル(※)

f:id:cookie-box:20190101155733p:plain:w60

NeurIPS 2020 pre-proceedings をみるとタイトルに sequence/sequential を含む論文が…23件もありますね。多いので、特に「学習対象が系列データである」といえるものに絞りましょう(※ このセリフの最下部にある12件をスキップします)。それでも11件ありますね…。以下にあやしい理解をメモしておきます。

  • 粒子フィルタによる一般化ベイズフィルタリング ― βダイバージェンスを組み込んでモデルや観測の誤りにもロバストなフィルタリングを実現した。
  • 出力間の関連性を考慮した Sequence to Multi-Sequence モデル ― 出力間の関連性を考慮することで従来より高精度な音声分離を実現した。
  • Funnel-Transformer ― エンコーダ内で入力系列を徐々に短い系列に圧縮する「漏斗」transformer を導入し、入力系列を一つのベクトルに埋め込むタスクで transformer より高性能を発揮した。
  • ペアワイズシーケンスアラインメントのための Rank-One モデルの適応的学習 ― を考案した。
  • COT-GAN ― 「因果最適輸送距離(COT)」を導入し時系列を生成するGANを実現した。
  • 2つのBERTをアダプターでつないだ seq2seq モデル ― で効果的なファインチューニングを実現し、機械翻訳タスクで推論速度を半減させつつ SOTA と同等のスコアを達成した。
  • Temporal Spike Sequence Learning Backpropagation(TSSL-BP) ― スパイキングニューラルネットを精度よく学習するための新しい誤差逆伝播法を考案した(系列データの学習ではない)。
  • スパイク列を検出するための点過程モデル ― を考案した。
  • 長文学習のための Big Bird ― 普遍的な表現力を維持しつつアテンションを疎にすることで同じ計算資源で8倍の長さの系列を学習できるようにした。
  • 解釈可能な Covid-19 予測 ― SEIR のような感染症モデルに解釈可能なままに機械学習を導入した。
  • ユーザごとの特徴を考慮したイベントの種別と発生タイミングの予測 ― を考案した。
タイトルを sequence/sequential で検索すると transformer(BERT)の論文が中途半端にヒットしますが、これらを含む論文自体はさらにたくさんあることに留意が必要です。
Generalised Bayesian Filtering via Sequential Monte Carlo
Ayman Boustati, Omer Deniz Akyildiz, Theodoros Damoulas, Adam Johansen
状態空間モデルで分布がガウシアンでない一般的な場合であって、モデルが必ずしも正しく特定されていない場合(?)に、如何にフィルタリングするかという話なのでしょうか? 通常の逐次モンテカルロ法(粒子フィルタ)を何か改良しているのではないかと思いますが、ベータダイバージェンスとは何でしょうか。以下をみるとKLダイバージェンスの拡張のようですね。
Sequence to Multi-Sequence Learning via Conditional Chain Mapping for Mixture Signals
Jing Shi, Xuankai Chang, Pengcheng Guo, Shinji Watanabe, Yusuke Fujita, Jiaming Xu, Bo Xu, Lei Xie
seq2seq モデルならぬ、1つの系列を複数系列にマッピングするモデルでしょうか。AさんとBさんとCさんの会話が重なった音声データから、Aさんの声、Bさんの声、Cさんの声を分離するイメージのようですね。出力系列間の関連性を明示的にモデリングするということですが…Aさんの声を解読できたら、もとの音声データとAさんの声を元にBさんの声を出力するということですかね。それはそうした方がいいですよね。効果的な停止則ももっているようですが、この音声データにはもうしゃべっている人はいないよ、というのを何らかの方法で検知するのでしょうね。
後から大量のラベルなしデータで効果的にチューニングできるような、スケーラブルな言語モデルが望まれているということでしょうか。それはそうですよね。ここでは特に文章を単一のベクトルにエンコーディングするタスクを考えていると。そして、スケーラビリティのためにわざと冗長性をもたせるのでしょうか。隠れ状態の系列を徐々に圧縮していくということですか。funnel とは「漏斗」なんですね。エンコーダ層内で1層を経るごとに16単語→8単語→4単語になっていくんでしょうか。それで空いた計算資源を deeper なモデルや wider なモデルの学習に再投資すると。確かにメモリの節約になりますが再投資の仕方もアルゴリズムに含まれているんでしょうか。とにかく系列に対して1つの判定を下すようなモデルで通常の transformer より高性能であったということです。
シーケンスアラインメントとは2系列の類似箇所を検出する作業なのでしょうか。計算が高コストなんですね。そして、実際には多数のリード(調査対象の塩基配列?の1本?1本をリードというのでしょうか)のうちどの2本が似ているかにしか興味がないんですかね。それで提案手法では Rank-One モデルと多腕バンディットアルゴリズムを導入したということですが。アブストラクトにクラウドソーシングと出てきていますが、クラウドソーシングでも複数の人のアノテーションを統合しますが、Rank-One モデルも複数のセグメントの類似性を統合するのでクラウドソーシングの問題設定で用いられているんでしょうか。
COT-GAN: Generating Sequential Data via Causal Optimal Transport
Tianlin Xu, Wenliang Le, Michael Munn, Beatrice Acciaio
系列データを生成するGANということです。GAN(WGAN)は訓練データの分布と生成データの分布の Wasserstein 距離(最適輸送距離)を小さくしようとするんですよね。しかし、生成するデータが系列データの場合にどうやって分布を似せるべきかは自明でないですね。そこで「因果最適輸送距離(Causal Optimal Transport: COT)」を導入したということですが、どのようなものかはアブストラクトから推測することは難しいですね…。学習のアルゴリズムには Sinkhorn アルゴリズムという Wasserstein 距離を近似するアルゴリズムを適用しているんですね。
Incorporating BERT into Parallel Sequence Decoding with Adapters
Junliang Guo, Zhirui Zhang, Linli Xu, Hao-Ran Wei, Boxing Chen, Enhong Chen
BERT を如何に効果的に seq2seq モデルに組み込むかは自明ではないと。そこで本手法では2つのBERTモデルをエンコーダとデコーダとして採用し、その間に軽量な「アダプター」(これをタスクに応じてチューニングする)を挟む構成をとると。"catastrophic forgetting" というのはファインチューニング時に忘れるべきでない特徴抽出まで全て忘れてしまうことをいうんでしょうか。とりあえずそれを回避できるようです。機械翻訳タスクで推論速度を2倍にしながらアブストラクトに記述の BLEU スコアを達成したようですが、これはよいスコアなんでしょうか…あ、最後に SOTA と同等とありますね。…関係ないですが、英独翻訳と英仏翻訳の BLEU スコアに随分差がありますが、英独翻訳は英仏翻訳よりそんなに困難なものなのでしょうか。
そもそも Spiking neural networks(SNNs)をよく知らないですね…ニューラルネットワークだがスパイクを伝達させてさらに神経細胞に寄せたものなんでしょうか。しかし既存の誤差逆伝播法ではスパイクの不連続性を適切に扱えないと。また、まともな性能を達成するのに何ステップも要するのでスケーラブルでないと。なので Temporal Spike Sequence Learning Backpropagation(TSSL-BP)なる新しい誤差逆伝播法を考案したという話でしょうか。…これ系列データの学習の話ではなかったですね。
Point process models for sequence detection in high-dimensional neural spike trains
Alex Williams, Anthony Degleris, Yixin Wang, Scott Linderman
さっきの論文と紛らわしいですがこれは高次元のスパイク列が学習対象ですね(動物の神経データが学習データであるようです)。教師なしでパターンを発見するという話でしょうか。既存手法は時間ステップが離散化されていることが必要であるとか色々好ましくない点があるんですね。なので点過程モデルを提案したということですが、どのようなモデルなんでしょうか。
Big Bird: Transformers for Longer Sequences
Manzil Zaheer, Guru Guruganesh, Kumar Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed
長い系列(文章)のための BERT、ですよね。BERT はアテンションがあるために系列長の2乗のメモリを消費する、ということでしょうか。そうなんでしたっけ? まあそうとして、それを回避する疎なアテンションを導入したということですね。それでいて表現力をもつと。それで同じ計算資源で従来の8倍の長さの系列を扱えるようになったということです。長文を扱えるようになるのは可能性が広がりますね。
Interpretable Sequence Learning for Covid-19 Forecasting
Sercan Arik, Chun-Liang Li, Jinsung Yoon, Rajarishi Sinha, Arkady Epshteyn, Long Le, Vikas Menon, Shashank Singh, Leyou Zhang, Martin Nikoltchev, Yash Sonthalia, Hootan Nakhost, Elli Kanal, Tomas Pfister
感染症数理モデル(SEIR)のようなモデルに機械学習を組み込んで性能向上させかつ解釈は可能なようにしたということですかね。説明変数のエンコード、コンパートメント毎の時間変化、というコンポーネントを明示的に用意しているのが肝なのでしょうか。政策をサポートするモデルは特に解釈性が重要ということですね。アメリカの州単位や郡単位で検証しているようですね。
User-Dependent Neural Sequence Models for Continuous-Time Event Data
Alex Boyd, Robert Bamler, Stephan Mandt, Padhraic Smyth
ここでは金融商品の取引データや医学的データが意識されているのでしょうか。様々なタイプの出来事がいつ起きるかを予測するのは困難と。現在の SOTA は強度関数(いまこそこのイベントが起きるぞという強度を出力するのでしょうね)を RNN でモデリングしたものであると。しかし既存のモデルは"come from the same data distribution"? これは色々な性格の個々人がいることをきちんと考慮していないという意味でしょうか…。提案手法はユーザ行動のモデルを償却変分推論で学習するんですね。

※ 以下の12件をスキップします。sequential だと強化学習の論文が多くヒットしますね…。

つづかない