雑記: ダルモア・スキットビッチ定理の証明

参考文献(この記事はほとんどこの文献の内容のまま): http://ee.sharif.edu/~bss/DarmoisTheorem.pdf
統計的因果探索手法の LiNGAM で実際に因果グラフを推測するアプローチの一つに、「正しくない因果的順序で回帰すると(原因の変数を結果の変数で回帰すると)、説明変数と残差が独立にならない ⭐」ことを利用して因果的順序を特定するものがありますが、⭐ を保証するダルモア・スキットビッチ定理の証明が気になったのでウェブ上で拾った参考文献の自分の訳をメモします。解釈の誤りは自分に帰属します。定理1と定理2の証明はありません(参考文献にも)。お気付きの点がありましたらコメントでご指摘いただけますと幸いです。
なお、ダルモア・スキットビッチ定理は以下の定理3で、「確率変数 Y_1, Y_2 がどちらも、非ガウス分布にしたがう X_j の1次の項を含んでいる(係数 a_j, b_j がどちらもゼロでない)ならば、Y_1Y_2 は独立にならない」といっても同じです。LiNGAM の文脈では、X_j を結果変数の誤差項、Y_1 を結果変数、Y_2 を結果変数で原因変数を回帰したときの残差とすれば、a_jb_j も非ゼロであり、結果変数と誤差項が独立になりません。
f_1, f_2, \cdots, f_N を何回でも微分可能な関数とし、任意の x, y について以下のようにかけるとする。
 f_1(a_1x + b_1y) + f_2(a_2x + b_2y) + \cdots + f_N(a_Nx + b_Ny) = A(x) + B(y) \quad \forall x, y \tag{1}
ただし、a_1, a_2, \cdots, a_N, b_1, b_2, \cdots, b_N はゼロでない定数であり以下を満たす。
 a_i b_j - a_j b_i \neq 0 \qquad \forall \, i \neq j
このとき f_1, f_2, \cdots, f_N は高々 N 次の多項式である。
補題1の証明
(1) 式において、以下のように、a_N x + b_N y は一定に保ちつつ xy を変化させることを考える。
 x \leftarrow x + \delta_1^{(1)}
 y \leftarrow y + \delta_2^{(1)}
 a_N \delta_1^{(1)} + b_N \delta_2^{(1)} = 0
(上の3番目の式が表す直線上の原点以外から (\delta_1^{(1)}, \delta_2^{(1)}) を選べばよい。)ここで、\epsilon_i^{(1)} = a_i \delta_1^{(1)} + b_i \delta_2^{(1)}i \neq N では 0 にならない(∵  a_i b_N - a_N b_i \neq 0 )。xy を変化させた後の (1) 式から変化させる前の (1) を引くと以下のようになる。
 \Delta_{\epsilon_1^{(1)}} f_1(a_1x + b_1y) + \Delta_{\epsilon_2^{(1)}} f_2(a_2x + b_2y) + \cdots +\Delta_{\epsilon_{N-1}^{(1)}} f_{N-1}(a_{N-1}x + b_{N-1}y) = A_1(x) + B_1(y) \quad \forall x, y
 \Delta_h f(x) \Delta_h f(x) = f(x + h) - f(x) を意味する。同様の変化を f_1 の項だけになるまで(N-1 回目まで)繰り返すと以下のようになる。
 \Delta_{\epsilon_1^{(N-1)}} \cdots \Delta_{\epsilon_1^{(1)}} f_1(a_1x + b_1y) = A_{N-1}(x) + B_{N-1}(y) \quad \forall x, y
N 回目には y を固定して x だけ変化させる。
 \Delta_{\epsilon_1^{(N)}} \cdots \Delta_{\epsilon_1^{(1)}} f_1(a_1x + b_1y) = A_{N}(x) \quad \forall x, y
N + 1 回目には x を固定して y だけ変化させる。
 \Delta_{\epsilon_1^{(N+1)}} \cdots \Delta_{\epsilon_1^{(1)}} f_1(a_1x + b_1y) = 0 \quad \forall x, y
ここで、各回の変化  \epsilon_1^{(1)}, \cdots, \epsilon_1^{(N+1)} は好きな値にとれるが、どのような値にとっても結局  \Delta_{\epsilon_1^{(N+1)}} \cdots \Delta_{\epsilon_1^{(1)}} f_1(a_1x + b_1y) = 0 になる。これは f_1N+1 次の導関数0 ということに他ならない。したがって、f_1 は高々 N 次の多項式である。f_2, \cdots, f_N についても同様。
定理1( Lévy-Cramer )
X_1, X_2 を互いに独立な確率変数とし、Y = X_1 + X_2 とする。このときもし Yガウス分布にしたがうならば、X_1X_2ガウス分布にしたがう。
定理1の証明は参考文献にはない。以下の2~7ページにありそう。読んでない。
[1810.01768] Three remarkable properties of the Normal distribution
定理2( Marcinkiewics-Dugué )
e^{p(\omega)}p(\omega)多項式 )の形の特性関数をもつ確率変数は、定数確率変数かガウス分布にしたがう確率変数だけである(したがって多項式の次数は2以下である)。
定理2の証明も参考文献にはない。同じ主張が以下の記事にもある。
Cumulants - Scholarpedia
Marcinkiewicz (1939) は探せば出てくるがフランス語なので読めない。
おそらく以下のサーベイにもこの定理が載っているがこちらはたぶんフリーアクセス版がない。
A survey of the theory of characteristic functions | Advances in Applied Probability | Cambridge Core
定理3( Darmois-Skitovic )
X_1, \cdots, X_N を互いに独立な確率変数とし、Y_1, Y_2 を以下のように定義する。
 \begin{cases} Y_1 &= a_1 X_1 + \cdots + a_N X_N\\ Y_2 &= b_1 X_1 + \cdots + b_N X_N \end{cases}
このときもし Y_1Y_2 が独立ならば、a_i b_i \neq 0 であるようなすべての iX_iガウス分布にしたがう。
定理3の証明
 a_i b_j - a_j b_i \neq 0 \quad \forall \, i \neq j としても一般性を失わない(∵ もし  a_i b_j - a_j b_i = 0 になる i, j があれば a_i X_i + a_j X_j という新しい確率変数にマージすればよい; もしこのマージした確率変数がガウス分布にしたがうならば定理1よりマージする前の確率変数もガウス分布にしたがう)。
いま  (Y_1, Y_2) の特性関数は以下のようになる。
 \Phi_{Y_1, Y_2}(\omega_1, \omega_2) = E \bigl[e^{j(\omega_1 Y_1 + \omega_2 Y_2)} \bigr] = E \bigl[e^{j \sum_{i=1}^N (\omega_1 a_i + \omega_2 b_i) X_i} \bigr] = \prod_{i=1}^N \Phi_{X_i} (a_i \omega_1 + b_i \omega_2)
他方、 Y_1, Y_2 が独立であることから、 (Y_1, Y_2) の特性関数は以下のようにならなければならない。
 \Phi_{Y_1, Y_2}(\omega_1, \omega_2) = \Phi_{Y_1}(\omega_1) \Phi_{Y_2}(\omega_2)
したがって、
 \prod_{i=1}^N \Phi_{X_i} (a_i \omega_1 + b_i \omega_2) = \Phi_{Y_1}(\omega_1) \Phi_{Y_2}(\omega_2)
両辺の対数をとって( \Psi は第2キュムラント母関数)、
 \sum_{i=1}^N \Psi_{X_i} (a_i \omega_1 + b_i \omega_2) = \Psi_{Y_1}(\omega_1) + \Psi_{Y_2}(\omega_2)
ここで、左辺の a_i b_i = 0 であるような i については右辺に移項する。それで補題1を適用すると、 a_i b_i \neq 0 であるような i \Psi_{X_i}多項式であることがわかる。よって定理2より X_iガウス分布にしたがう(分散がゼロでないと仮定しないならば定数確率変数でもありうると思う)。