適当に考えた以下の例だとピアノを習っていることの東大合格への効果 はゼロでした(追記: なので当然である)。ピアノを習っているかと東大に合格したかは正の相関()をもつのですが、それはピアノを習っているかとご家庭の年収との相関係数にご家庭の年収からの東大合格への効果をかけたものと等しく、疑似相関で説明し切れてしまうからという理屈だと思うのですが、そもそもなぜご家庭の年収を観測できなくてもピアノの月謝さえあればそれが推測できるのでしょうか。
x = standardization([0, 0, 0, 0, 0, 0, 1, 1, 1, 1])
y = standardization([0, 0, 0, 1, 0, 0, 1, 0, 0, 1])
u = standardization([1, 2, 3, 4, 5, 5, 4, 4, 5, 5])
z = standardization([0, 0, 0, 0, 0, 0, 1, 2, 1, 2])
以下であれば が正になりますね。ピアノを習っているならば月謝が 2 の子に限って東大に合格しているという状況です。月謝が 2 のピアノ教室ではきっと頭がよくなる音楽でも教えているのでしょう。それであればご家庭の年収を差し引いてもピアノを習うと東大に合格しやすくなるというのも頷けます。しかし、これはもはやピアノを習うとよいのではなく月謝 2 のピアノ教室に行くのがよいという話になっているような……。
x = standardization([0, 0, 0, 0, 0, 0, 1, 1, 1, 1])
y = standardization([0, 0, 0, 1, 0, 0, 0, 1, 0, 1])
u = standardization([1, 2, 3, 4, 5, 5, 4, 4, 5, 5])
z = standardization([0, 0, 0, 0, 0, 0, 1, 2, 1, 2])
話をまとめると以下でしょうか。
- ご家庭の年収が観測できないとき、ピアノを習っていることの東大合格への効果は知り得ない。ご家庭の年収のために生じる疑似相関を識別できないからである。
- しかし、ピアノの月謝(ご家庭の年収から矢線がなく、かつ、東大合格に矢線がある)を観測できれば以下の手続きをとれる。
- ピアノの月謝から東大に合格したかの効果 は求められる (5.22)。
- ピアノを習っているかからピアノの月謝への効果 も求められる(相関係数に等しい) (5.23)。
- 上2つの積が知りたい効果である。
この例では媒介変数をピアノの月謝として話がおかしくなったのでもっとそれは に効くだろうという媒介変数がよかったですね。しかし、ご家庭の年収から矢線をもってはいけないという制約もありますから、現実によい媒介変数をみつけるのはなかなか難しそうです。