以下の論文を読みます。
Hsiang-Fu Yu, Nikhil Rao, and Inderjit S Dhillon. Temporal regularized matrix factorization for high-dimensional time series prediction. In Advances in neural information processing systems, pages 847–855, 2016. https://papers.nips.cc/paper/6160-temporal-regularized-matrix-factorization-for-high-dimensional-time-series-prediction
※ キャラクターは架空のものです。解釈の誤りは筆者に帰属します。お気付きの点がありましたらご指摘ください。

前回の論文の引用文献の話が長くなりそうだったから記事をスピンアウトするね。つまり、高次元時系列予測モデルの先行研究であって、ニューラルネットを利用するものであって、グローバルなパターンも学習するものの2つ目の方ね。論文の図のまんまだけど、時系列を下図のように と行列分解(MF)するんだね。
の各行は
番目の商品の特徴で、
の各列はその時刻の特徴って感じだね。

多変量時系列分析に行列分解を用いた先行研究ではこういう時間方向の依存性をグラフベースで取り扱ってラプラス正則化を適用しているみたいだけど、これだと2時点間の負の相関を考慮できなかったり、そもそも時間依存性が明示的に手に入っていない場合は推測しないといけなかったり、欠損値には強いものの予測は不得手だったりするって。
でも、この論文で提案する temporal regularized matrix factorization framework (TRMF) は「時間的正則化項」を導入することでデータドリブンで時間依存性を学習できて予測性能もあると。MF の特徴であるスケーラビリティと欠損値への強さはそのままに。あと先行のグラフベースアプローチとの統一的な見方も与えると。そうすることで既存のソルバーが活用できるって。

MFを用いる先行手法にはかなり制約があるのですね…? 本論文の2節には先行手法とその限界についてまとめてありますね。
- まず、AR や DLM は計算量が時系列の本数
や参照ステップ数
にスケールしないと。
- L次のARモデルって
のパラメータの推測に
かかるんですか?
- DLMってパラメータを更新するのに
かかるんですか(
は隠れ変数の次元数でしばしば
よりも大きい)? なので R の DLM で数十を超える次元数を取り扱うことはできないと。
- L次のARモデルって
- 次に、MF を用いる手法ですね。まず、グラフベースの正則化をする手法が以下ですよね。3番目の文献は5番目の文献の extended version にみえるのですがどう違うのですかね…。
- Nonnegative matrix factorization with temporal smoothness and/or spatial decorrelation constraints (2005)
- Exploiting Temporal Stability and Low-Rank Structure for Localization in Mobile Networks (2010)
- Spatio-Temporal Compressive Sensing and Internet Traffic Matrices (Extended Version) - IEEE Journals & Magazine (2012)
- Temporal collaborative filtering with Bayesian probabilistic tensor factorization (2010)
- Spatio-Temporal Compressive Sensing and Internet Traffic Matrices (2009)
- Regularized Non-negative Matrix Factorization with Temporal Dependencies for Speech Denoising (2008)
が時刻
と時刻
の間の枝の重みということでしょうか。
は枝があるところについての和ですね。なるほど、つまり、「結びつきが強い枝
でつながっている
と
ほど同じ値であれ」という最適化ですね。2項目はよくあるように、最適な点があることを保証するためのものっぽいですね。そして、
でなければなりません。それはそうでなければ最小化が実行できませんものね…。そして、実際には相関があると信ずるタイムラグの集合、例えば
などに対して適当な時不変な重み
を設定して上の最適化をするのですね。 しかしそれでは、負の相関を考慮できないし、そもそも明示的に時間依存構造が必要だし、予測性能もよくないのですね。
- じゃあ、時間依存構造
そのものもデータから学びたいということになりますよね。素朴には、以下のような最適化をしたいということになります。
しかし、これを解くと任意のに
となるのは明白だと…当然ですね…。なのでこのアプローチは取れません…いったいどうすれば…。
もう少しつづく