
【計】 Mahalanobis distance
equine; gee; horse; horseflesh; neddy; steed
【醫】 hippo-
ah
bright; loud and clear
promise; yes
compare; compete; ratio; than
【醫】 proportion; ratio
【經】 Benelux; benelux customs union; benelux economic union
this
【化】 geepound
be apart from; distance; interval; remove; space
【計】 geodesic distance
【醫】 distance; telorism
馬哈朗諾比斯距離(Mahalanobis Distance)是統計學中用于衡量點與一個分布間距離的重要度量方法,尤其適用于多維空間。它由印度統計學家普拉桑塔·錢德拉·馬哈朗諾比斯(Prasanta Chandra Mahalanobis)于1936年提出。以下是其詳細解釋:
定義
馬哈朗諾比斯距離表示一個數據點相對于某個數據集的“标準化”距離。其核心思想是考慮數據各維度間的相關性及方差差異。若數據點坐标為 (mathbf{x} = (x_1, x_2, ldots, x_n)^T),目标分布的均值為 (mathbf{mu} = (mu_1, mu_2, ldots, mu_n)^T),協方差矩陣為 (mathbf{Sigma}),則距離公式為: $$ D_M(mathbf{x}) = sqrt{ (mathbf{x} - mathbf{mu})^T mathbf{Sigma}^{-1} (mathbf{x} - mathbf{mu}) } $$ 其中協方差矩陣的逆 (mathbf{Sigma}^{-1}) 用于消除變量相關性和尺度影響。
與歐氏距離的區别
歐氏距離僅計算空間直線距離,忽略數據分布形态。而馬哈朗諾比斯距離通過協方差矩陣調整,在數據分布呈橢圓狀時,能更準确反映點與分布中心的相對位置(例如沿主軸方向距離更短)。
對數據進行線性變換(如單位轉換)不影響距離計算結果,确保不同量綱變量的可比性。
自動處理變量間的相關性。若兩個變量高度相關,馬哈朗諾比斯距離會降低其在計算中的權重,避免重複計數。
在多元統計中,該距離能有效識别偏離整體分布的異常點。例如在質量控制中,距離值超過阈值(如χ²分布臨界值)即視為異常。
作為相似性度量,用于K均值等算法,提升高維數據聚類效果。
在分類問題中(如線性判别分析),用于計算樣本到各類别中心的距離以進行分類決策。
通過計算所有點到均值的馬哈朗諾比斯距離,實現數據标準化,消除維度間相關性影響。
參考文獻來源:
馬哈拉諾比斯距離(Mahalanobis Distance)是一種基于數據分布特性的距離度量方法,由印度統計學家P. C. Mahalanobis提出。它通過考慮特征間的協方差關系,解決了傳統歐氏距離在多維數據中的局限性。
基本定義
馬氏距離用于衡量一個點與某個分布(或兩個點在同一分布下)的“标準化”距離。其核心思想是通過協方差矩陣對數據進行縮放和旋轉,消除特征間的相關性及量綱影響。
與歐氏距離的關系
假設某數據集包含身高和體重兩個相關特征,若直接使用歐氏距離,可能因量綱差異(如身高單位為米,體重為千克)導緻誤判。而馬氏距離通過協方差矩陣統一量綱并消除相關性,能更合理地反映數據間的真實距離。
包裝與标籤規定背對背轉發器襯闆動力複體段描述符格式二苯二砜發家分凝作用根尖間膿腫逛蕩環二酯姜形黃精精糖機器的拒選命令克爾連續螺旋形塔脈搏不勻棉馬堿皮甾酮四醇汽車半徑杆薩-席二氏試驗舌骨下咽切開術什麼世界語體積貨物替曲比妥圖象數據結構圖象轉換