雑記

マハラノビス距離
参考文献: Mahalanobis distance - Wikipedia, the free encyclopedia

  •  x と分布の距離であって次のように定義される。ただし、 \mu, \; S は分布の平均ベクトルと共分散行列。
     D_M(x)=\sqrt{(x-\mu)^{\rm T}S^{-1}(x-\mu)}
  • 意味的には、ある点が、ある分布の平均から標準偏差の何倍離れたところにあるか、の多次元への一般化。
    • 1次元ならそうなのはまあ明らかにわかる。
    • 独立な多次元分布なら、平均からの距離が一緒なら、分散が大きい軸方向に離れているより、分散が小さい軸の方向に離れている方が、離れていると見なされるイメージ。
  • データ分析では、ある点xがある集合Aに所属しているか否か? のようなシチュエーションにつかえる。
    つまり、ある集合Aのサンプル点群を分布として、ある点xとのマハラノビス距離を求めればよい。分布の平均から標準偏差の何倍も離れていたら、所属していなさそう。
    • アヤメの がく片の幅-花びらの幅 空間で、未知のアヤメがどの品種かを推定するのには有用そう。
    • 歪んだ分布や多峰の分布には上手くいかなさそう。
  • 正規分布とそこからのサンプル点のマハラノビス距離の2乗は、カイ2乗分布にしたがう。
  • マハラノビス距離はてこ比の式でかける。式省略。
  • クラスタリングによく利用される。
    • つまり、ある点を、候補 N クラスのうち、マハラノビス距離が一番近いクラスに分類する。
    • ホテリングの  T^2 分布と関連が深い。
    • フィッシャーの線形判別分析とも関連深い。
  • 外れ値の検出にもよく利用される。
    • 外れ値は回帰係数に大きな影響を与えるので、回帰分析のときに取り除いておきたい。
    • 個々の軸では外れ値でなくても外れ値の場合がある。それを検出できるのでマハラノビス距離は有用。