マハラノビス距離
参考文献: Mahalanobis distance - Wikipedia, the free encyclopedia
- 点 と分布の距離であって次のように定義される。ただし、 は分布の平均ベクトルと共分散行列。
- 意味的には、ある点が、ある分布の平均から標準偏差の何倍離れたところにあるか、の多次元への一般化。
- 1次元ならそうなのはまあ明らかにわかる。
- 独立な多次元分布なら、平均からの距離が一緒なら、分散が大きい軸方向に離れているより、分散が小さい軸の方向に離れている方が、離れていると見なされるイメージ。
- データ分析では、ある点xがある集合Aに所属しているか否か? のようなシチュエーションにつかえる。
つまり、ある集合Aのサンプル点群を分布として、ある点xとのマハラノビス距離を求めればよい。分布の平均から標準偏差の何倍も離れていたら、所属していなさそう。- アヤメの がく片の幅-花びらの幅 空間で、未知のアヤメがどの品種かを推定するのには有用そう。
- 歪んだ分布や多峰の分布には上手くいかなさそう。
- 正規分布とそこからのサンプル点のマハラノビス距離の2乗は、カイ2乗分布にしたがう。
- マハラノビス距離はてこ比の式でかける。式省略。
- クラスタリングによく利用される。
- つまり、ある点を、候補 N クラスのうち、マハラノビス距離が一番近いクラスに分類する。
- ホテリングの 分布と関連が深い。
- フィッシャーの線形判別分析とも関連深い。
- 外れ値の検出にもよく利用される。
- 外れ値は回帰係数に大きな影響を与えるので、回帰分析のときに取り除いておきたい。
- 個々の軸では外れ値でなくても外れ値の場合がある。それを検出できるのでマハラノビス距離は有用。