雑記 - クッキーの日記

[2205.13504] Are Transformers Effective for Time Series Forecasting?（2023年6月27日参照）.
Yes, Transformers are Effective for Time Series Forecasting (+ Autoformer)（2023年6月27日参照）.

[1] [2] については2023年6月17日の記事を参照。

[2305.12095] Make Transformer Great Again for Time Series Forecasting: Channel Aligned Robust Dual Transformer（2023年6月27日参照）.

タイトルがアメリカの政治スローガンのようなプレプリントである。

💜

f:id:cookie-box:20211229152010p:plain:w70

💛

f:id:cookie-box:20211229162343p:plain:w70

[1] は「Transformer の時系列長期予測への応用が大流行しているが、Transformer を利用せずとも全結合層でよかった」という趣旨の論文であり、それに対して [2] が「いや、やはり Transformer の方がよいケースはある」というものでした。ただ双方とも実験的にそう主張しているだけであり、双方のタスク設定・評価指標がそれでうれしいものなのかに疑問の余地があります。さらにいえば、そこに疑問の余地があるくらいには「時系列予測」とは「等時間間隔に観測された何か」以上のことを共有していない概念であり、それを無理に一緒くたにして追求してもうれしくないのではないかという感想をもちました。
まあそれはそれで、その [2] で、近年の系列間の関連度を学習する取り組みとして Crossformer と共に [3] が引用されていたんですが、これをみると「多くの研究が Transformer より MLP の方が時系列予測性能がよいことを示しているので、時系列予測モデルとしての Transformer の欠点を補って既存モデルを凌駕する性能を達成した」というんです。[1] では時系列 Transformer が流行っているがといってみたり [3] では押されているがといってみたり自分たちの研究をよくみせるための被害者ムーブが過ぎませんか……？
自分たちの研究をよくみせるのは当然だし、というか [1] と [3] では arXiv 投稿日が1年違うから [3] の押されているというのは多分に [1] を意識しているんじゃないかな？実際2ページ目頭あたりで文字数を割いて言及しているね。
ああ、[1] について、「Zeng らは時系列データは文脈を欠いているので Transformer は時系列予測に不利であると議論し……」などとありますね。これ、[1] のアブストラクトを読んだ時にも思ったんですが、「Transformer は X なデータが得意だが時系列データは X なデータではない」という論法のようですが、これは「Transformer は時系列データが不得意である」「Transformer でないモデルは時系列データが得意である」を支持しませんよね。だって考えてみてください、採用面接の結果通知で、「あなたはスキル X がありますが当社ではスキル X は不必要なので不採用です」といわれたら怒るでしょう。怒っていますよ私は。
スキル X に特化しているとかいいたかったんじゃないか……？なんで部長がそんなに怒っているんだ……。それをいうなら、[1] のアブストラクトでは「時間ステップ間の関係をこそ学ぶべきなのに」といっているんだけどね。ただ [1] が引き合いにしている Autoformer や FEDFormer は入力系列をフーリエ変換して自己相関を学習しているから時間ステップ間の関係を学んでいなくはないと思うけどね。さらにいえば、本当に時間ステップ間の関係を学ぶべきなのかというのもあるかもしれないよね。そういうデータ生成メカニズムを想定していたらそうなんだろうけど。