以下のペーパーを読みます。
※ キャ
ラクターは架空のものです。解釈の誤りは筆者に帰属します。お気付きの点がありましたらご指摘ください。
次回:まだ
あらゆる因果分析のキモは「反実仮想」、つまり、「もしその処置がなされていなかったら何が起きていただろうかと推測すること」ですか。
冒頭の例は、以下のようなものですよね。
あるサーフィン映画のテレビ広告の効果を測ろうとして、一人当たり
興行収入 を一人当たり広告費
で
と回帰しても、これは上手くいかない。なぜなら、
ハワイ州でのデータを用いて広告の効果が
と推定されたとしても、
ノースダコタ州では人々は
ハワイ州の人々ほどサーフィンに興味があるとは思えず、同じ効果を見込めるとは思えない。実際
ノースダコタ州のデータで回帰すると
になっている。これは「サーフィンへの興味」という説明変数が足りなかったのだ。
…うーん、なんだか、この例で「都市によって広告の効果
の値が食い違った → 説明変数が足りなかったからだ!」といわれても、「都市によって広告の効果
が違った → 本当に都市によって広告の効果は違うのだ」と思う方が自然ではないですか? 実際、「テレビ広告の効果」って在宅の主婦や高齢者が多く住んでいるかとか土地柄とかに左右されそうですし…まあどうでもいいですが…。
それで、じゃあどうして
が食い違ってしまうのか数式で考えると、
なので…そうなんでしたっけ?
ああ、確かに ですね。それで、以下より、 にバイアスがないのは のときのみであると…。
…
はそもそも
を求めるときの仮定ですよね。ゼロであるとしたものをひねり出すこの式変形には違和感があるんですが…まあいいです。7310ページ左列の一番最後には因果推論のテキストでよくいわれるあれがかいてありますね。つまり、広告の打ち方に介入せず、単に広告費から売り上げを推測したいだけならさっきのシンプルな回帰でも構わない。しかし、いま知りたいのは「広告の打ち方を変化させたときに売り上げがどう変わるか」なのでそれではいけないということです。…そうですね、極端な話、配給会社は面白い映画にはその面白さの度合いだけ広告に熱を入れるかもしれません。そして、人々は面白い映画にはその面白さの度合いだけ映画館に足を運ぶかもしれません。このとき、広告費と
興行収入は比例してみえますが、実は人々は配給会社が打った広告とは全く関係なく映画を見に行っていただけかもしれません。この場合、広告費を2倍にしたところで
興行収入が2倍になるとは思えません。
その「映画の面白さ」みたいに、広告費にも売り上げにも影響するのが交絡変数(confounding variable)だね。これが存在するから上辺の関係だけみていても効果を測ることはできない。
そしてその問題は「人のふるまい」を分析するときにはいつもついてまわる…ですか。先の例だと、投じられる広告費はマーケティング担当の何らかの意思決定に基づくはずだが、アナリストはそれをわからず、意思決定時のファクターがエラーターム になってしまう、だから と が無関係でなくなってしまう、と。アナリストを雇ったのであればもう少しコミュニケーションしてくれませんかね…。しかし、現実にはマーケティング担当だって把握していない要素があるでしょうが…。ともあれ、通常は(マーケティング担当が incompetent でない限り)効果が出やすい広告の打ち方というのをしますから、本質的に交絡変数が存在するということですね。交絡変数が存在する例として、他にも以下が挙げられています。
コントロールできるもの | コントロールしたいもの |
肥料の量 | 農作物の収穫量 |
教育 | 収入 |
健康管理 | 収入 |
なんというか、2番目と3番目の「教育」や「健康管理」というのも曖昧ですが…これらは丸めていってしまえば、「『コン
トロールできるもの』をたくさん費やされるサンプルは、元々恵まれてるんじゃないの?(だから単純に回帰すると overstate になる)」という例ですよね。逆の例ってありませんか?
あくまで例だけど、ある病院で、個々のお医者さんが手術した患者の生存率のデータがあるとする。でも、腕のいい人ほど重篤な患者さんを任されるかもしれない。だから、「お医者さんの腕のよさ」と「患者の生存率」は思ったほど正の相関をもたないかもしれないし、下手すると相関が負になってくるかもしれない、みたいなのはどうかな。
なるほど。「運転しない人ほど事故を起こさない」「コードをかかない人ほどバグを出さない」ってやつですね?
先の例の後に、ラテン語のフレーズが含まれた文が出てきますね。
"We want an answer to a ceteris paribus question, but our data were generated mutatis mutandis."他の事情が同じ条件での処置の効果を測りたいのに、実データにおいては処置にしかるべき調整が加えられている、という意味でしょうが、この文章は英語がわかる人には小気味よい文章なんでしょうか? わかりません。それで、この続きでは、まず因果効果を測る黄金の方法としての controlled experiments を紹介しますが、これは現実的ではないので、経済学で観測データから因果効果を推定するのに用いられる以下の4つの手法を紹介するということですね。
- natural experiments
- instrumental variables
- regression discontinuity
- difference in differences
…話が長くて面倒なので
Difference in Differences の節までとぶと、ここでは下の表のような状況で、キャンペーンの効果
を測りたいのですね。ここで
は、「キャンペーンを受けた処理群がキャンペーンを受けなかった
世界線での、キャンペーン後の時点での値」とでもいえばいいでしょうか。
| キャンペーン前 | キャンペーン後 |
対照群 | | |
処理群 | | (観測不可) |
|
それで、ここでは
という仮定を置きます。処理群の人たちがもしキャンペーンを受けなかったとしたら、変化は対照群の人たちと同じであったはずだ、という仮定ですね。これが正しい状況かは慎重に判断しないといけませんが…。ただ、その仮定さえ認めれば、キャンペーンの効果は
と、観測データのみから計算することができます。何のことはない、処理群の成長度から対照群の成長度を差し引いただけですね。だから「差の差」というわけです。変化の大きさではなく変化率が同じであったという仮定
を置いてもいいです。その場合、キャンペーンの効果は
になりますね。処理群の成長率を対照群の成長率で割ることになります。…しかし、何か共変量
があるなら、
の推定に
機械学習的な手法を用いるとよいかもしれないというような提案がありますね。対照群でモデルを学習して処理群に適用すればよいと。
(その2があれば)つづく