雑記 - クッキーの日記

お気付きの点がありましたらご指摘いただけますと幸いです。

Statistical Tests Won’t Help You to Compare Distributions | by Samuele Mazzanti | Apr, 2022 | Towards Data Science

💜

f:id:cookie-box:20211229152010p:plain:w70

[1] の記事は、手元のデータが以下のようになっているとき、「アメリカのお客様とドイツのお客様とで最も異なる変数はどれだろうか？」という問題設定なのですね。
顧客ID どの国の顧客か年齢購入回数平均購入額
＊＊＊＊＊
仮にもしアメリカのお客様が未成年ばかりで、ドイツのお客様が高齢者ばかりであったら、答えは「年齢」となるのでしょうね。……いえ、その場合でも他の変数がより乖離している可能性もあるかもしれません。変数間で単位が異なりますから、何か単位によらない指標が必要ですね。
そしてその指標は「分布間の距離」になると。
そうですね……もし今回の問題を立てた背景が「ある一つの変数からどの国からのお客様か予測したいから」であったとしたら、そもそもそのモデルを学習してみればよいわけです。線形モデルを使用するのであったら、アメリカのお客様とドイツのお客様を最もよく線形分離できるような変数が選ばれるでしょう。しかし、今回は特定のモデルで予測することを見据えているわけではなく、ただただ「どの変数がカギを握っていそうか」という知見を得たいので、「この変数は両グループ間で重なっていなさそうだ」というのに興味があるのですね。なので結論を先にいうと、この記事の冒頭にもあるように「標準化 Wasserstein 距離」を指標とするべきだと。
しかし記事では本題の「標準化 Wasserstein 距離」に入る前に、よくない指標の例として以下を挙げていますね。
- F 検定の p 値
- Kolmogorov-Smirnov 検定の p 値
……F 検定はそもそも正規分布を仮定しているのではないでしょうか。Kolmogorov-Smirnov 検定は分布の形こそ仮定しませんが、累積分布関数の差のL∞-ノルムに基づく指標であったはずです。例えばアメリカからのお客様が 18, 20, 22, 24, …, 100 歳で、ドイツからのお客様が 17, 19, 21, 23, …, 99 歳であったとしたら、これは両グループ間で年齢になんだかとてもあやしい差がある状況ですが、Kolmogorov-Smirnov 検定はこの差を上手く拾えないかもしれません。「アメリカのお客様とドイツのお客様でそれぞれ 40 歳以下は何 % か？」と調べていったとき、ほとんどいつも値が揃ってしまうのですから。
ですので、なんだか p 値をよくないものとしていますが、p 値がよい指標とならないときによくないのは、「自分が何を調べようとしてるか把握していないこと」か、「F 検定や Kolmogorov-Smirnov 検定を理解していないこと」か、あるいはその両方なのではないでしょうか。
……しかし、この記事の筆者が記事中で「F 検定の p 値」「KS 検定の p 値」「標準化 Wasserstein 距離」を並べて示している例ではむしろ前 2 つの p 値がはっきりと「分布が異なる」と示していますね、はて……？なるほど、「分布の位置が離れるほど指標が大きくなってほしい」という要請を満たしていないといいたいのですね。