論文読みメモ: Empirical Likelihood Estimation of Levy Processes(その2)

以下のワーキングペーパーを読みます。

Naoto Kunitomo, Takashi Owada. Empirical Likelihood Estimation of Levy Processes. CIRJE-F-272, Graduate School of Economics, University of Tokyo, 2004.
https://www.carf.e.u-tokyo.ac.jp/research/1313/

※ キャラクターは架空のものです。解釈の誤りは筆者に帰属します。おかしい点がありましたらご指摘ください。
前回:その1 / 次回:まだ
f:id:cookie-box:20190101155733p:plain:w60

2.1 節には安定分布に対する経験尤度法のやり方がかかれていましたね。

  • まず、安定分布は一般に確率密度関数 p(x|\theta) を解析的に記述できません。しかし、分布の特性関数  \phi_\theta(t)パラメトリックに記述できます。
  • 各データ X_k \, (k= 1, \cdots, n) に尤度 p(X_k|\theta) を割り当てることができないので、代わりに「経験尤度」p_k \, (p_k \geqq 0, \; \sum_{k=1}^n p_k = 1) を割り当てることを考えましょう。しかし、経験尤度に何も条件を課さないのでは、任意の k に対して p_k = 1/n とさえすれば(つまり、ただの経験分布ですね)経験尤度関数  L_n(\theta) = \prod_{k=1}^n p_k を最大にできてしまいます。これでは私たちが「  X_1, \cdots, X_n を生成したのは安定分布だと考えている」ことが反映されません。いま経験尤度に要請することは、 \sum_{k=1}^n p_k e^{it_l X_k} = \phi_\theta(t_l) \; (l=1, \cdots, m) です。つまり、経験尤度による特性関数が安定分布の特性関数に t_1, \cdots, t_mm 点で一致することです。
  • この要請下で L_n(\theta) を最大化するには最大化問題のラグランジュ関数(以下)を利用します。
     \displaystyle \mathcal{L}_n(\theta) = \sum_{k=1}^n \log (n p_k) - \mu \left( \sum_{k=1}^n p_k - 1 \right) - n \lambda^\top \left( \sum_{k=1}^n p_k g(X_k, \theta) \right)
    where  \displaystyle g(X_k, \theta) = \begin{pmatrix} \cos(t_1 X_k) - \phi_\theta^R(t_1) \\ \vdots \\ \cos(t_m X_k) - \phi_\theta^R(t_m) \\ \sin(t_1 X_k) - \phi_\theta^I(t_1) \\ \vdots \\ \sin(t_m X_k) - \phi_\theta^I(t_m) \end{pmatrix}
    ラグランジュ関数の p_k に関する微分から  \hat{\mu}=n, \hat{p}_k = n^{-1} \bigl[ 1 + \lambda^{\top} g(X_k, \theta)\bigr]^{-1}は直ちに求まります。また、\theta が最適化されているもとでは  \mathcal{L}_n(\theta) = \sum_{k=1}^n \log (n \hat{p}_k) ですが、これが \lambda の凸関数であると仮定すればこれの唯一の最小点 \lambda(\theta) をとることで \theta から \lambda を特定できます。結局 \sum_{k=1}^n \log \bigl[ 1 + \lambda(\theta)^{\top} g(X_k, \theta)\bigr]^{-1} を最大化する \hat{\theta} を探すという問題に帰着できるわけです。
こうして求まった最大経験尤度推定量(MEL 推定量\hat{\theta} が安定分布のパラメータであろうと考える、のが著者の提案する安定分布に対する経験尤度法ですが、ここまでは「こう考える」としかいっていませんね。「ベイズ推測するとはこう考えることである」と同じで、これだけでは何もいっていないに等しいわけです。そこで、2.2 節では MEL 推定量の漸近的性質が論じられているようですね。

f:id:cookie-box:20190101160814p:plain:w60

以下の Qin and Lawless (1994) で、一般化推定方程式のシチュエーションで、ある条件下で MEL 推定量が一致性と漸近正規性をもつことが示されているみたい。これと同様の手順で漸近的性質を示すらしい。

まず 5 ページの定理 2.1 では、真のパラメータがパラメータ空間の特殊なところにはない条件下で、MEL 推定量 \hat{\theta}_nラグランジュ乗数ベクトル \hat{\lambda}_n が漸近的にある多変量正規分布に法則収束すると。

f:id:cookie-box:20190101155733p:plain:w60

証明は Qin and Lawless (1994) も参照した方がいいのでしょうか…。あれ、7 ページに、定理 2.1 の MEL 推定量の漸近分散は一般にクラメール・ラオの下限を上回るとありますね。m が固定されたとき漸近有効でないと…。

f:id:cookie-box:20190101160814p:plain:w60

でもその直後に、m をサンプルサイズ n に連動させて、t_1, \cdots, t_m を適当なところ(0 とある正定数 K の間を m 等分したところ)にとることで漸近有効性まで示せるとあるよ。それが定理 2.2 かな。

f:id:cookie-box:20190101155733p:plain:w60

真のパラメータがパラメータ空間内のどこにあるかが定理 2.1 より少しゆるくても、MEL 推定量が真のパラメータに確率収束するんですね。さらに、真のパラメータへの制約が定理 2.1 と同じ場合はやはり MEL 推定量はある多変量正規分布に法則収束するようですが、これは…K を大きくすればクラメール・ラオの下限を達成できるということですかね。そして、\alpha = 1, 2 の場合は特殊なので MEL 推定量が漸近正規性や漸近有効性をもつかはよくわからないみたいですね。… \alpha=1 の場合ってコーシー分布なんですか?

f:id:cookie-box:20190101160814p:plain:w60

今回の定義だと安定分布の特性関数はこうで、\alpha=1 では微分できないから漸近的性質を示せないんだね。

\phi_\theta(t) = \exp \left( -|\gamma t|^\alpha + i\delta t + i\beta \gamma t \bigl( |\gamma t|^{\alpha - 1} - 1 \bigr) \tan \frac{\pi \alpha}{2}\right)
\alpha=1 を代入すると \phi_\theta(t) = \exp \left( -|\gamma t| + i\delta t \right) だよね。だから確率密度関数は…コーシー分布だね。
\displaystyle \begin{split} f(x) &= \frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-itx} \phi_\theta(t) dt = \frac{1}{2\pi} \int_{-\infty}^{\infty} \exp \left( t (-ix + i\delta - |\gamma|) \right) dt \\ &= \frac{1}{2\pi} \left(  \left[ \frac{\exp \left( t (-ix + i\delta + \gamma) \right)}{-ix + i\delta + \gamma} \right]_{t = -\infty}^0 + \left[ \frac{\exp \left( t (-ix + i\delta - \gamma) \right)}{-ix + i\delta - \gamma} \right]_{t = 0}^\infty \right) \\ & = \frac{1}{2\pi} \left( \frac{1}{-ix + i\delta + \gamma} - \frac{1}{-ix + i\delta - \gamma} \right) = \frac{1}{\pi} \frac{\gamma}{(x-\delta)^2 + \gamma^2}  \end{split}

f:id:cookie-box:20190101155733p:plain:w60

コーシー分布ですね。…続く 2.3 節は、MEL 推定量の性質を利用した検定でしょうか。定理 2.3 の主張は、定理 2.2 と同じ m への制約下で、定理 2.1 と同じ真のパラメータへの仮定の下で、

  1. 帰無仮説  H_0 : \; \theta = \theta_0 の検定統計量は  W_1 = 2[ l_n(\hat{\theta}_n) - l_n(\theta_0) ] であるということです。ここで l_n(\theta) = \sum_{k=1}^n \log \bigl[ 1 + \lambda(\theta)^{\top} g(X_k, \theta)\bigr]^{-1} です。対数経験尤度比関数ですね。そして、W_1 H_0 が正しいならば n \to \infty で自由度4のカイ2乗分布に法則収束するということです。
  2.  \mathbb{E}_{\theta_0} [g(X, \theta_0)] = 0 の統計量は W_2 = -2 l_n(\hat{\theta}_n) であり、2m 個の制約が正しいもとで  (W_2 - 2m) / \sqrt{4m} は標準正規分布に法則収束するということです。
2. はどのような検定なのでしょうか。本当に安定分布かといったような確認なのでしょうか。あまり通常の統計的検定ではそのような確認をしない気がします。

f:id:cookie-box:20190101160814p:plain:w60

過剰識別制約検定というのに相当するみたい? これが「棄却されないこと」が大事っぽい、のかな。

2.3 節の終わりにも、真のパラメータがパラメータ空間の特殊な場所にある場合は統計量のふるまいが特定できない困難があるとあるね。

f:id:cookie-box:20190101155733p:plain:w60

3.1 節は本題のレヴィ過程の推定ですね。レヴィ過程  \{Z_\nu\} の等時間間隔ごとの差分をとれば無限分解可能分布にしたがう確率変数列 \{X_i\} になりますね。一般に無限分解可能分布は (3.1), (3.2) 式に出てくるパラメータ \theta = (a, b, c^\top)^\top で特定できるようです。あれ、一般の無限分解可能分布を取り扱うのですか? (3.1), (3.2) 式の積分は、レヴィ測度?

f:id:cookie-box:20190101160814p:plain:w60

その次の段落で、数理ファイナンスで重要な3つのケースにだけ着目するとあるようにみえるよ。その1つ目が安定分布のケースだね。2つ目が CGMY 過程のケース、3つ目が正規逆ガウス過程のケースだって。

(その3があれば)つづく