Time Series Analysis: ノート10章 弱定常ベクトル過程(その1)

以下の本の10章を読みます。私の誤りは私に帰属します。お気付きの点がありましたらご指摘いただけますと幸いです。

Time Series Analysis

Time Series Analysis

その他の参考文献
  1. 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) | 竜義, 沖本 |本 | 通販 | Amazon
関連記事
f:id:cookie-box:20190101160814p:plain:w60

10章と11章は多変量時系列への拡張みたいだね。例えば「毎年のGNP」と「毎年の国債金利」を束ねたら多変量時系列になるよね。目次をみるに、10章では単変量時系列のときと同様に改めて多変量時系列のモデルを導入して収束性などの性質を議論して、11章で実際にモデルを使って推定していくのかな。10章冒頭に章の構成について簡単な説明があるね。以下の内容をやっていくみたい。

  • 10.1節 ベクトル自己回帰過程の導入
  • 10.2節 ベクトル過程の自己共分散と収束
  • 10.3節 ベクトル過程の自己共分散生成関数(autocovariance-generating function)
    • この節は 10.4 節の準備になるみたいだね。
  • 10.4節 ベクトル過程のスペクトル
  • 10.5節 ベクトル過程の標本平均
    • この節では命題 7.5 を多変量時系列に拡張するみたい。この結果は後の14章で、自己相関がある場合や不均一分散の場合のOLS推定量を導出するときや、一般化モーメント推定量を考えるときにつかうみたい。あと17章の単位根検定でもつかうって。
ちなみにこの記事のタイトルでは10章のタイトルである Covariance-Stationary Vector Processes を「弱定常ベクトル過程」と訳したけど、これは沖本本の 4.1 節「弱定常ベクトル過程」に倣ったよ。直訳するなら「共分散定常ベクトル過程」だけど、テキスト45ページ(沖本本だと75ページ)にあるように、「弱定常」も「共分散定常」も意味は同じだからね。

f:id:cookie-box:20190101155733p:plain:w60

はあ…ともかく10章は多変量時系列の導入であって、この章で学んだことを後の章でも利用するのですね? それでその命題 7.5 って何でしたっけ…188ページの以下ですか。

命題 7.5(弱定常過程版の大数の弱法則
Y_tE(Y_t)=\mu, \; E(Y_{t} - \mu)(Y_{t-j} - \mu) = \gamma_j であるような弱定常過程とする。但し \gamma_j は絶対総和可能 \sum_{j=0}^\infty |\gamma_j| < \infty とする。このとき標本平均 \overline{Y}_T =(1/T) \sum_{t=1}^T Y_t について以下が成り立つ。
  • \overline{Y}_T\mu に2次平均収束する。\Rightarrow \overline{Y}_T\mu に確率収束する。
  • \lim_{T \to \infty} \bigl[ T E(\overline{Y}_T - \mu)^2 \bigr] = \sum_{j = -\infty}^\infty \gamma_j
これは以下の通常版の大数の弱法則(183ページ)を弱定常過程版にしたものでしたね。
命題(通常版の大数の弱法則
Y_tE(Y_t)=\mu, \; E(Y_{t} - \mu)^2 = \sigma^2 < \infty であるような i.i.d.過程とする。このとき標本平均 \overline{Y}_T =(1/T) \sum_{t=1}^T Y_t について以下が成り立つ。
  • \overline{Y}_T\mu に2次平均収束する。\Rightarrow \overline{Y}_T\mu に確率収束する。
標本サイズを大きくしたときに真のパラメータに確率収束するような推定量を一致推定量とよびますから、これらは「標本平均は母平均の一致推定量である」といっているに他ならないのですね。…それで、多変量時系列版ではどうなるのかを先に覗いてみましょう。10.5節の279ページの最下部ですね。以下の y_t\mu は太字にしませんが n 次元のベクトルとしていますので注意してください。\Gamma_\nun \times n 次元の自己共分散行列です。
命題 10.5(弱定常ベクトル過程版の大数の弱法則
y_tE(y_t)=\mu, \; E(y_{t} - \mu)(y_{t-\nu} - \mu)^\top = \Gamma_\nu であるような弱定常ベクトル過程とする。但し \Gamma_\nu は成分ごとに絶対総和可能 \sum_{\nu=0}^\infty |\gamma_{i,j}^{(\nu)}| < \infty とする。このとき標本平均 \overline{y}_T =(1/T) \sum_{t=1}^T y_t について以下が成り立つ。
  • \overline{y}_T\mu に成分ごとに2次平均収束する。\Rightarrow \overline{y}_T\mu に成分ごとに確率収束する。
  • \lim_{T \to \infty} \bigl[ T E(\overline{y}_T - \mu)(\overline{y}_T - \mu)^\top \bigr] = \sum_{\nu = -\infty}^\infty \Gamma_\nu
こうして見比べると命題 7.5 と似ていますね。多変量になったといっても様変わりしてしまったという感じにはみえないです。しかし、この命題 10.5 が何になるのでしょうか?

f:id:cookie-box:20190101160814p:plain:w60

何って、標本平均がどんな性質をもっているのか押さえておかないと、それをつかった推定や検定がどのような性質をもつのかわからないからね? 後の章で扱うのかと思ったけど、10.5節の続きにも色々な推定量が紹介されているからそれをみればわかるんじゃないかな。…ともかく10.1節の内容に入っていこう。早速257ページで p 次のベクトル自己回帰過程 VAR(p) を以下のように定義しているね。

 y_t = c + \Phi_1 y_{t-1} + \cdots + \Phi_p y_{t-p} +\varepsilon_{t} \tag{10.1.4}
y_t, c,  \varepsilon_{t} はもはや n 次元のベクトルだね。\Phi_\nun \times n 次元の係数行列だね。

f:id:cookie-box:20190101155733p:plain:w60

えっと、自己回帰過程 AR(p) では係数 \phi_jスカラーでしたよね。それがいまや行列になったのですね。…しかし、その行列の各成分は何を意味するのでしょうか。その VAR(p) の第1成分をかき下してみましょう。ここで行列 \Phi_\nuij 列の成分を \phi_{i,j}^{(\nu)} とかき、ベクトル y_ti 番目の成分を y_{t,i} とかきます(ベクトルの添え字をテキストと逆にしたので注意してください)。

\begin{split} y_{t,1} = c_1 &+ \phi_{1,1}^{(1)} y_{t-1,1} + \phi_{1,2}^{(1)} y_{t-1,2} + \cdots + \phi_{1,n}^{(1)} y_{t-1,n} \\ &+ \phi_{1,1}^{(2)} y_{t-2,1} + \phi_{1,2}^{(2)} y_{t-2,2} + \cdots + \phi_{1,n}^{(2)} y_{t-2,n} + \cdots \\ &+ \phi_{1,1}^{(p)} y_{t-p,1} + \phi_{1,2}^{(p)} y_{t-p,2} + \cdots + \phi_{1,n}^{(p)} y_{t-p,n} +\varepsilon_{t,1} \end{split} \tag{10.1.7}
こうですね。となると、\phi_{i,j}^{(\nu)} の意味はy_t の第 i 成分が \nu ステップ前の第 j 成分にどれだけ依存するか」といえますね。

f:id:cookie-box:20190101160814p:plain:w60

そうだね。あと \varepsilon_{t} もいまやホワイトノイズからベクトルホワイトノイズになっているからね。つまり、\varepsilon_{t} は確率ベクトルであって、任意の t で平均ベクトルが E(\varepsilon_{t}) = 0 であって、自己共分散行列 E(\varepsilon_{t} \varepsilon_{t'}^\top) t = t' のときのみ n \times n 正定値行列 \Omega であって、 t \neq t' のときは零行列だ。ちなみに沖本本76ページの記述だけど「\Omega は対角行列である必要はない」よ。例えば、日々の気温とアイスクリームの売り上げを2変量時系列とみなして VAR(p) でモデリングするとしたら、\Omega はきっと正の非対角成分をもつんじゃないかな。だって、ある日に偶発的に気温が高くなったとしたら、その日はアイスクリームも想定より売れそうだもんね。そこは相関があっていい。でも、ある日に偶発的に気温が高くなったのがその次の日以降の気温/アイスクリームの売り上げに影響するのは駄目。 t \neq t' のときは零行列だから。日付をまたいだ影響は係数行列 \Phi_\nu で表現しないといけない。

f:id:cookie-box:20190101155733p:plain:w60

なるほど。異なる日のノイズどうしは無相関だが同じ日のノイズの成分どうしは相関があってもいいんですね。VAR(p) がどのようなモデルなのかは理解した気がします。…しかし、AR(p) がそうであったように VAR(p) も \Phi_\nu に何か条件を課さないと定常にはならないのですよね? 復習すると、過程が(弱)定常であることの定義は以下でした。平均が時刻によらず、自己共分散も時刻によらず時間差だけに依存するということですね。

定義(単変量時系列の弱定常性)
任意の tj に対して E(Y_t) = \mu, \; E(Y_t - \mu)(Y_{t-j} - \mu) = \gamma_j が成立するとき、過程 Y_t は弱定常であるという。
以下、単に定常といった場合弱定常を指すことにします。AR(p) の定常条件は以下でした。
命題(AR(p) の定常条件)
AR(p)  Y_t = c + \phi_1 Y_{t-1} + \cdots + \phi_p Y_{t-p} +\varepsilon_{t} の定常条件は以下である(どちらも同じ)。
  • 方程式 \lambda^p - \phi_1 \lambda^{p-1} - \cdots - \phi_p = 0 の解がすべて単位円より内側にある。
  • 方程式 1 - \phi_1 z - \cdots - \phi_p z^p = 0 の解がすべて単位円より外側にある。
なぜこのような条件になるのかはテキスト7〜13ページですね。AR(p) が定常であると仮定すると、その平均 \mu からの差分を取って、ベクトルに束ねて、式 (1.2.5) の \xi_t = F \xi_{t-1} + v_t の形にすることができるはずです(具体的にかき下すと以下)。
 \displaystyle \left(\begin{array}{c} y_t - \mu \\ y_{t-1} - \mu \\ \vdots  \\  y_{t-p+1} - \mu \end{array}\right) = \left(\begin{array}{ccccc} \phi_1 & \phi_2 & \cdots & \phi_{p-1} & \phi_p \\ 1 & 0 & \cdots & 0 & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & 1 & 0 \end{array}\right) \left(\begin{array}{c} y_{t-1} - \mu \\ y_{t-2} - \mu \\ \vdots  \\  y_{t-p} - \mu \end{array}\right) + \left(\begin{array}{c} \varepsilon_t \\ 0 \\ \vdots  \\  0 \end{array}\right) \tag{1.2.5}
この F を対角化 F=T \Lambda T^{-1} すると \Lambda は対角成分に F固有値が並んだ対角行列になりますが、この固有値の中に絶対値が1より大きいものがあったら、どこかの時刻で発生した \mu からの差分が爆発していってしまいますよね。それだと自己共分散が時刻によらないことに矛盾します。逆にすべての固有値の絶対値が1未満ならば、どこかの時刻で発生した \mu からの差分はいつしか消えてなくなるので、この過程の自己共分散は時刻に依存しません。F固有値 \lambda は方程式 \lambda^p - \phi_1 \lambda^{p-1} - \cdots - \phi_p = 0 の解になります(命題 1.1)。なので AR(p) の定常条件は上のようになるわけです。

…単変量の AR(p) のときはこうでしたが、多変量の VAR(p) になると定常条件はどうなるのでしょうか?

f:id:cookie-box:20190101160814p:plain:w60

先に多変量時系列の場合の弱定常性の定義を一応かいておくよ。単変量のときと同様だけど。

定義(多変量時系列の弱定常性)
任意の t\nu に対して E(y_t) = \mu, \; E(y_t - \mu)(y_{t-\nu} - \mu)^\top = \Gamma_\nu が成立するとき、過程 y_t は弱定常であるという。
それで、VAR(p) でも AR(p) のときとやることは同じだよ。VAR(p) をベクトルに束ねて \xi_t = F \xi_{t-1} + v_t の形にする。式 (10.1.11) だね。

f:id:cookie-box:20190101155733p:plain:w60

またしてもベクトルに束ねるのですか。…いえでも、今回は元々ベクトルであるのをさらにベクトルに束ねるということになりますね?? \xi_t = F \xi_{t-1} + v_t をきちんとかき下してみましょう。この Fnp \times np 行列なのですね…。

 \displaystyle \left(\begin{array}{c} y_t - \mu \\ y_{t-1} - \mu \\ \vdots  \\  y_{t-p+1} - \mu \end{array}\right) = \left(\begin{array}{ccccc} \Phi_1 & \Phi_2 & \cdots & \Phi_{p-1} & \Phi_p \\ I_n & 0 & \cdots & 0 & 0 \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ 0 & 0 & \cdots & I_n & 0 \end{array}\right) \left(\begin{array}{c} y_{t-1} - \mu \\ y_{t-2} - \mu \\ \vdots  \\  y_{t-p} - \mu \end{array}\right) + \left(\begin{array}{c} \varepsilon_t \\ 0 \\ \vdots  \\  0 \end{array}\right) \tag{10.1.11}
まあでも、今回も F のすべての固有値の絶対値が1未満であるべきという条件は変わらないですね。多変量時系列のどれか1つの成分でも爆発したら定常でなくなってしまいますから。そうすると、1章のときと同様の操作をして、結局以下のようになりますね。
命題 10.1(VAR(p) の定常条件)
VAR(p)  y_t = c + \Phi_1 y_{t-1} + \cdots + \Phi_p y_{t-p} +\varepsilon_{t} の定常条件は以下である。
  • 方程式  \bigl| \lambda^p I_n - \lambda^{p-1} \Phi_1 - \cdots - \Phi_p \bigr| = 0 の解がすべて単位円より内側にある。
    • この縦棒は行列式の意味である。つまり、これは \lambdanp 次方程式である。
10.1節の続きには、「Vector MA(∞) 表現」というのが出てきますね。AR(p) は定常であれば MA(∞) にかき直すことができましたが、VAR(p) も定常であれば Vector MA(∞) にかき直せるということでしょうか。

f:id:cookie-box:20190101160814p:plain:w60

そうだね。\xi_t = F \xi_{t-1} + v_t を繰り返し適用すれば、

\xi_{t} = v_{t} + F v_{t-1} + F^2 v_{t-2} + F^3 v_{t-3} + \cdots
となって、この両辺のベクトルの最初の n 個の成分を取れば、
y_{t} = \mu + \varepsilon_{t} + F_{1,1} \varepsilon_{t-1} + F_{1,1}^{(2)} \varepsilon_{t-2} + F_{1,1}^{(3)} \varepsilon_{t-3} + \cdots
となるからね。これは Vector MA(∞) だ。ところで、 F_{1,1}^{(\nu)}F^{\nu} の左上 n \times n ブロックを指すよ。ところで、正則な n \times n 行列 H があったとき、以下のように H^{-1} H を挟むことは差し支えないよね。
y_{t} = \mu + H^{-1} H \varepsilon_{t} + F_{1,1} H^{-1} H \varepsilon_{t-1} + F_{1,1}^{(2)} H^{-1} H \varepsilon_{t-2} + F_{1,1}^{(3)} H^{-1} H \varepsilon_{t-3} + \cdots

f:id:cookie-box:20190101155733p:plain:w60

差支えはありませんが、それが何ですか?

f:id:cookie-box:20190101160814p:plain:w60

いまベクトルホワイトノイズは \varepsilon_t だけど、u_t = H \varepsilon_t というように変換されたベクトルホワイトノイズで考えてもいいってことみたい。特に、いま \varepsilon_t の分散共分散行列は \Omega だけど、\Omega を対角化 H\Omega H^\top = D するような H を選んでベクトルホワイトノイズを u_t = H \varepsilon_t と変換すれば、u_t の成分どうしを無相関にできる。

f:id:cookie-box:20190101155733p:plain:w60

ああ、\varepsilon_t確率密度関数f(\varepsilon_t) \propto \exp(-0.5 \varepsilon_t^\top \Omega^{-1} \varepsilon_t) ですから、u_t = H \varepsilon_t と変換したときの確率密度関数f(u_t) \propto \exp(-0.5 u_t^\top (H^{-1})^\top \Omega^{-1} H^{-1} u_t) = \exp(-0.5 u_t^\top (H\Omega H^\top)^{-1} u_t) となって、分散共分散行列が対角行列になり、成分ごとに無相関になりますね。

f:id:cookie-box:20190101160814p:plain:w60

でもその場合 Vector MA(∞) は y_{t} = \mu + H^{-1} u_t + \cdots となっちゃって u_t の項に係数行列がかかっちゃうから、それを許容しないなら成分ごとに無相関にはできないんだけどね。というか Vector MA(∞) の定義がすぐ後に出てくる式 10.2.3 だと思うんだけど、\varepsilon_t に係数行列はかかっていないから、ノイズを変換しちゃうとやっぱり厳密には Vector MA(∞) ではないね。

続く 10.2 節は、まずベクトル過程の自己共分散行列の定義かな。つまり、定常ベクトル過程 y_t\nu 次の自己共分散行列は \Gamma_{\nu} = E \bigl[ ({y}_t - \mu)({y}_{t - \nu} - \mu)^\top \bigr] だ。単変量のときの自己共分散と似ているね。ただ注意してほしいのは、\Gamma_{\nu}\Gamma_{-\nu} が同じになるとは限らない。成り立つのは \Gamma_{\nu}^\top = \Gamma_{-\nu} になる。

f:id:cookie-box:20190101155733p:plain:w60

えっ、何故そのような違いが。

f:id:cookie-box:20190101160814p:plain:w60

もはや積が交換しないしね。({y}_t - \mu)({y}_{t - \nu} - \mu)^\top({y}_{t-\nu} - \mu)({y}_{t} - \mu)^\top って一般に等しくないよね。

f:id:cookie-box:20190101155733p:plain:w60

ああ確かに…\Gamma_\nu の1行目は「y_{t,1}y_{t-\nu,1}, \, y_{t-\nu,2}, \cdots, y_{t-\nu,n}」との共分散ですが、\Gamma_{-\nu} の1行目は「y_{t-\nu,1}y_{t,1}, \, y_{t,2}, \cdots, y_{t,n}」との共分散ですから、意味が違いますね…。

その2につづく