論文読みメモ: Temporal regularized matrix factorization for high-dimensional time series prediction(その1)

以下の論文を読みます。

Hsiang-Fu Yu, Nikhil Rao, and Inderjit S Dhillon. Temporal regularized matrix factorization for high-dimensional time series prediction. In Advances in neural information processing systems, pages 847–855, 2016. https://papers.nips.cc/paper/6160-temporal-regularized-matrix-factorization-for-high-dimensional-time-series-prediction
※ キャラクターは架空のものです。解釈の誤りは筆者に帰属します。お気付きの点がありましたらご指摘ください。
f:id:cookie-box:20200101101614p:plain:w60

前回の論文の引用文献の話が長くなりそうだったから記事をスピンアウトするね。つまり、高次元時系列予測モデルの先行研究であって、ニューラルネットを利用するものであって、グローバルなパターンも学習するものの2つ目の方ね。論文の図のまんまだけど、時系列を下図のように  Y \approx FX と行列分解(MF)するんだね。F の各行は i 番目の商品の特徴で、X の各列はその時刻の特徴って感じだね。

f:id:cookie-box:20200216104950p:plain:w480
こんな行列分解を求めるには以下を解くんだけど、2番目の項と3番目の項は正則化項だね。
 \displaystyle \underset{F, X}{\rm min} \sum_{(i, t) \in \Omega} (Y_{it} - f_i^\top x_t)^2 + \lambda_f \mathcal{R}_f(F) + \lambda_x \mathcal{R}_x(X)
でも通常(とは)の行列分解みたいに \mathcal{R}_x(X) = \| X \| _F \| \cdot \| _F は後で出てくるけどフロベニウスノルムだね…最初  Y \approx FXF と関係ある何らかのノルムなのかと思った…)なる正則化は適切ではないといっているね。もし Y がアイテム×ユーザという行列だったら、各ユーザがどのアイテムをより好きかを表現できればいいけど、いまはアイテム×時刻という行列だから、「各時刻にどのアイテムがより強い(?)」だけでは不十分で、次の時刻にその強さがどう変わるかも必要だもんね。
多変量時系列分析に行列分解を用いた先行研究ではこういう時間方向の依存性をグラフベースで取り扱ってラプラス正則化を適用しているみたいだけど、これだと2時点間の負の相関を考慮できなかったり、そもそも時間依存性が明示的に手に入っていない場合は推測しないといけなかったり、欠損値には強いものの予測は不得手だったりするって。
でも、この論文で提案する temporal regularized matrix factorization framework (TRMF) は「時間的正則化項」を導入することでデータドリブンで時間依存性を学習できて予測性能もあると。MF の特徴であるスケーラビリティと欠損値への強さはそのままに。あと先行のグラフベースアプローチとの統一的な見方も与えると。そうすることで既存のソルバーが活用できるって。

f:id:cookie-box:20200101101603p:plain:w60

MFを用いる先行手法にはかなり制約があるのですね…? 本論文の2節には先行手法とその限界についてまとめてありますね。

もう少しつづく