隼時系列本: ノート4

以下の本を読みます。

時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装時系列分析と状態空間モデルの基礎: RとStanで学ぶ理論と実装
馬場 真哉

プレアデス出版 2018-02-14
売り上げランキング : 7742

Amazonで詳しく見る
by G-Tools
※ 以下、キャラクターが会話します。原作とは関係ありません。上の本からそれる話も多いです。誤りがあればご指摘ください。
前回:ノート3 / 次回:まだ
f:id:cookie-box:20180305231302p:plain:w60

時系列のモデルを決めるのに、次数は AIC か何かでゴリゴリ決めるけど、何階差分系列を取るべきかはそれじゃ駄目で、仮説検定をつかって対象データが単位根かどうか判断するって話で…KPSS検定とADF検定は帰無仮説と対立仮説が逆?

f:id:cookie-box:20180305232608p:plain:w60

有名な単位根検定の中でKPSS検定だけが「単位根がない」の側を帰無仮説とするようですね。なるほど「単位根がある」の方を帰無仮説とするのが自然なように思います。両側検定では  H_0 : \mu = \mu_0 \, \; {\rm vs.} \, \; H_1: \mu \neq \mu_0 の形式で  H_0 が正しいかどうかを確かめますが、「単位根がある」とはつまり「その時系列を生成する確率過程を AR(1) で表現したとき  \phi_1 = 1 である」ですので、 H_0: \phi_1 = 1 になりそうです。しかし、「単位根がある」を帰無仮説とするDF検定やADF検定では、帰無仮説を棄却できないケースに困ったようなんです。単位根がないというよほど「強い証拠」がない限り帰無仮説が受容されてしまうと(以下;KPSS検定の原論文のイントロダクションより)。

f:id:cookie-box:20180305231302p:plain:w60

「単位根があることを棄却できない」ってことは「単位根がないと結論づけるには至らない」ってことだよな…それは困るな。棄却されたら単位根過程じゃないって安心できるけど、棄却されなかったらどっちなんだよっていう。

f:id:cookie-box:20180305232608p:plain:w60

なので、KPSS検定の提唱者らは、帰無仮説と対立仮説を逆にしたんです。彼らは最初からランダムォーク項を仮定し、「ランダムウォークの分散がゼロである」を帰無仮説としました…本の64ページにある通りです。

f:id:cookie-box:20180305231302p:plain:w60

なるほど、それなら帰無仮説が棄却されれば「単位根がある」ことになる…別の検定では単位根があるのかないのかどっちかわからなかったケースでも、きっぱりと「単位根がある」っていえるようになるかも。…じゃあKPSS検定だけでよくない? 何階差分をとるか決めるときには「単位根がある」ってはっきり言ってくれる検定の方がうれしいし…。

f:id:cookie-box:20180305232608p:plain:w60

実際この本ではKPSS検定を時系列モデル構築手順に据えていますが、65ページにデータに合わせて検定方法を変えるようにとありますね。どの検定を採用すべきかはどのような仮定を置いているかに依存しますし、時系列データの長さや、 \phi_1 の大きさにも依存するとも( \phi_1 = 0.1 ならなかなか単位根があるようにはみえないかもしれませんが  \phi_1 = 0.9 なら単位根があるようにみえてしまいそうですよね)。以下のような論文をWeb上で見つけました。

f:id:cookie-box:20180305231302p:plain:w60

結局どの検定にするかもケースバイケースってことか…そういえば、65ページのDF検定に「簡単そうに見えますが(略)うまくいきません」ってあったけど、まず簡単そうに見えるって気持ちがわかんない!

f:id:cookie-box:20180305232608p:plain:w60

DF検定って式の形だけみると単なる単回帰分析にみえます。単回帰分析とは…(x, y) のデータ対がたくさんあったとします。(気温, アイスクリームの売上高) のデータと考えてもいいです。このデータから傾き「1度気温が上がると、アイスの売上高がどれだけ伸びるか」を求めたいとします。単純な仮定の置き方の1つは、y が確率分布 N(ax+b, \, \sigma^2) から生成されると決めることです。最小2乗法で a, \, b の推定値 a', b' を求めることができるでしょう。全てのデータが xy 平面で y 軸に平行に並んでいるのでもない限り、a' の値は必ず何かしら求まります。しかし、a' が求まるからといって先の仮定が正しいとは限りませんよね。本当は直線に当てはめるべきデータではないかもしれません。なので、H_0: a=0 の下でその a' が得られるかどうか確かめるんです。もし H_0 が棄却されれば、傾きが a' であることが信頼できるでしょうし、棄却されなければ最初の仮定が信頼しづらいということです。…とまあここまでは簡単な話ですね。ただ、DF検定は単回帰分析のようにみえてこのように簡単にはいかないということなんです。

f:id:cookie-box:20180305231302p:plain:w60

ごめんその話も別に簡単じゃないんだけど…何がさらに難しいの…。

f:id:cookie-box:20180305232608p:plain:w60

 y_t= a x_t + \varepsilon_t y_{t} = \phi_1 y_{t-1} + \varepsilon_t は違うんです。後者では、 \varepsilon_{t=0} の影響がいつまで経ってもなくなりません。ので、 a の推定値  a' の分布と、 \phi_1 の推定値  \phi_1' の分布の形は違ってきます。さらに、いま帰無仮説は  H_0: \phi_1 = 1 ですから、この非定常な場合での分布の形を知らないといけないんです。

f:id:cookie-box:20180305231302p:plain:w60

…よくわかんないけど、単位根過程かどうか調べるのに苦労してるんだな。しかもそれだけ苦労したのにADF検定は帰無仮説が棄却できなかったりするんだろ?

f:id:cookie-box:20180305232608p:plain:w60

なので、改良されたADF-GLS検定というのもあるそうです。と以下の資料に。

f:id:cookie-box:20180305231302p:plain:w60

へー。まあそれでARIMAモデルが決まったとして、残差をチェックするのか。…残差に自己相関が残ってたら駄目っていうけどさ、計算機が決めてくれたのに ARMA モデルの次数が最適になっていないってあるの? それとも残差が残っちゃったらもう ARMA モデルの限界ってこと?

f:id:cookie-box:20180305232608p:plain:w60

僕もよくわかりませんが…ARMAのパラメータ最適化も不安定な場合もあるのかもしれませんが…あるいは、階差を取るべきなのに取っていなかったなどということもあるかもしれませんね。

(ノート5があれば)つづく