岩波データサイエンス Vol.6: ノート1

6月下旬に以下の本が出ましたので、この本を読んで時系列解析の復習ポイントだと思ったことと、本の記述に対して自分で考えたことを書きます。誤っている可能性があります。
岩波データサイエンス Vol.6岩波データサイエンス Vol.6
岩波データサイエンス刊行委員会

岩波書店 2017-06-23
売り上げランキング : 944

Amazonで詳しく見る
by G-Tools

  • そもそもなぜ時系列解析には状態空間モデルなのかというと、時系列を予測したい場合は、本質的に、「観測できない真のダイナミクス」と「ノイズ」を分離する必要があるからだよという話。ノイズまで学習してしまったら予測にとっては害だから(「しばしば悲惨な結果をもたらす」5ページ)。
  • 直接観測できない真の姿を状態という。状態を観測するときにノイズが加わるし(観測ノイズ)、その状態が時間発展するときにもノイズが加わる(システムノイズ)(7ページ)。
    • 線形・ガウス型状態空間モデルとは発生する観測ノイズ  v_n とシステムノイズ w_n が平均ゼロのガウシアン(分散は時変でよい)、一期前の状態を現在の状態にうつす写像 F_n が線形(時変でよい)、システムノイズが状態に加わるときの変換  G_n も線形(時変でよい)、観測も線形 H_n(時変でよい;観測ノイズは平均ゼロのガウシアンのまま観測に加わるとする)の状態空間モデルを特にそういう(7~8ページ)。
       x_n = F_n(x_{n-1})+G_n(v_n)
      y_n = H_n(x_n) + w_n
      この式をみるとなんでシステムモデルの方のノイズだけ  G_n が付いてるんだと思うけど、平均ゼロのガウシアンを G_n で線形変換するというのは平均ゼロとは限らないガウシアンにするということで、例えば海の上で漂流していて陸地までの距離を知りたいとき(下図;2015-12-29の日記からリサイクル)沖の方に流される風が吹いていたら「大気によるノイズ」はゼロでないドリフト成分をもつだろう。「それって状態の時間発展 F_n の方に入らないの?」って思うかもしれないけど、ケースバイケースだと思う。状態空間モデルを描くとき現実のシステムを思い浮かべて描くわけで、「うーんこの要素はシステムの範疇」だったら  F_n に含めるし、システム外と考えるのだったら  G_n に含めると思う。他方観測ノイズはドリフトしないのは「観測ノイズがドリフトすんな」という要請だと思う。仮に何らかのドリフト要素があるなら  H_n に含めましょうということなのだと思います。
      f:id:cookie-box:20151229173717p:plain:w400
  • 「パラメータ推定に使われる尤度も、予測値だけでは計算できない(11ページ)」
    • 観測データ  y_0 を説明するモデルを  p(y | \theta) と考えているとする。パラメータ  \theta の尤度関数は  f(\theta) = p(y_0 | \theta) となる。もし  p(x | \theta)デルタ関数だったら(分布を考えず点のみ予測するのだったら)  p(y_0 | \hat{\theta})=1 を与える  \hat{\theta} を除いて尤度がゼロになってしまいパラメータが尤もらしいかどうかの比較ができない。尤度関数が微分できないので最尤法もしづらい。たぶん。なお、時系列の場合の尤度関数は  f(\theta) = p(y_{0:n} | \theta) = \prod_{i=0}^{n} p(y_{i} | \theta)
  • 季節調整法で、トレンド成分、季節成分に加えて定常AR成分を導入すると予測がよくなることがある(20ページ)。
    • 定常過程とは: 弱定常過程 - クッキーの日記
      • 時系列から任意の10時点の値を取ってきたときにそれらがしたがう同時確率分布と、さらにそれぞれの30ステップ後の10時点の値を取ってきたときにそれらがしたがう同時確率分布が同じ。時系列をプロットしていったとき、プロットはずっと水平な帯の中におさまる。
    • 「定常モデルと非定常モデルでは長期予測においてまったく働きが異なる(20ページ)」: ここが何を言いたいのかと思ったんだけど、次の文章と合わせると、定常モデルは「繰り返されるパターンが何か」を表現しさえすればよいけど、非定常モデルは「繰り返されるパターン」「あと時系列全体の成長トレンド」を同時に表現することになるので働きが異なるということなんだろうと思います。
    • ここでいう「トレンドが波打っている」というのは、季節調整で排除できない、「商品が売れた月の翌月は一時的に売れ行きが鈍る」のような短期変動なのだろうと思います。
  • 拡張カルマンフィルタ(言葉と参考文献のみ;20ページ):
  • 混合ガウス分布近似で「正規分布の項数が時間の進行とともに爆発的に増大する(21ページ)」:
    • 何が爆発するのかわからないんですが、毎ステップか数ステップ毎に何か情報量基準を最小化するように混合正規分布をその個数も含めてフィッティングし直すということなんでしょうか。
  • R の dlm はつかったことがあります。