お気付きの点がありましたらご指摘いただけますと幸いです。
💜

- [1] の記事は、手元のデータが以下のようになっているとき、「アメリカのお客様とドイツのお客様とで最も異なる変数はどれだろうか?」という問題設定なのですね。
仮にもしアメリカのお客様が未成年ばかりで、ドイツのお客様が高齢者ばかりであったら、答えは「年齢」となるのでしょうね。……いえ、その場合でも他の変数がより乖離している可能性もあるかもしれません。変数間で単位が異なりますから、何か単位によらない指標が必要ですね。顧客ID どの国の顧客か 年齢 購入回数 平均購入額 * * * * * - そしてその指標は「分布間の距離」になると。
- そうですね……もし今回の問題を立てた背景が「ある一つの変数からどの国からのお客様か予測したいから」であったとしたら、そもそもそのモデルを学習してみればよいわけです。線形モデルを使用するのであったら、アメリカのお客様とドイツのお客様を最もよく線形分離できるような変数が選ばれるでしょう。しかし、今回は特定のモデルで予測することを見据えているわけではなく、ただただ「どの変数がカギを握っていそうか」という知見を得たいので、「この変数は両グループ間で重なっていなさそうだ」というのに興味があるのですね。なので結論を先にいうと、この記事の冒頭にもあるように「標準化 Wasserstein 距離」を指標とするべきだと。
- しかし記事では本題の「標準化 Wasserstein 距離」に入る前に、よくない指標の例として以下を挙げていますね。
- F 検定の p 値
- Kolmogorov-Smirnov 検定の p 値
- ですので、なんだか p 値をよくないものとしていますが、p 値がよい指標とならないときによくないのは、「自分が何を調べようとしてるか把握していないこと」か、「F 検定や Kolmogorov-Smirnov 検定を理解していないこと」か、あるいはその両方なのではないでしょうか。
- ……しかし、この記事の筆者が記事中で「F 検定の p 値」「KS 検定の p 値」「標準化 Wasserstein 距離」を並べて示している例ではむしろ前 2 つの p 値がはっきりと「分布が異なる」と示していますね、はて……? なるほど、「分布の位置が離れるほど指標が大きくなってほしい」という要請を満たしていないといいたいのですね。