fbpx
Wikipedia

Distancia de Mahalanobis

En estadística, la distancia de Mahalanobis es una medida de distancia introducida por Mahalanobis en 1936. Su utilidad radica en que es una forma de determinar la similitud entre dos variables aleatorias multidimensionales. Se diferencia de la distancia euclídea en que tiene en cuenta la correlación entre las variables aleatorias.

Formalmente, la distancia de Mahalanobis entre dos variables aleatorias con la misma distribución de probabilidad y con matriz de covarianza se define como:

Propiedades como distancia

La distancia de Mahalanobis cumple las siguientes propiedades, necesarias para ser una distancia:

  • Semipositividad:   y además  

Es decir, la distancia entre dos puntos de las mismas coordenadas es cero, y si tienen coordenadas distintas la distancia es positiva, pero nunca negativa.

  • Simetría:  

Intuitivamente, la distancia entre   y   es la misma que entre   y  .

  • Desigualdad triangular:  

Ejemplo práctico

Para entender la utilidad de la distancia de Mahalanobis se puede considerar el siguiente ejemplo práctico: Un pescador quiere poder medir la similitud entre dos salmones, por ejemplo porque quiere clasificarlos en dos tipos para su venta y poder así vender los grandes más caros. Para cada salmón mide su anchura y su longitud. Con estos datos construye un vector   para cada salmón  .

La longitud de los salmones pescados es una variable aleatoria que toma valores entre 50 y 100cm, mientras que su anchura está entre 10 y 20cm. Si el pescador usase la distancia euclídea:  

O en notación vectorial:  

al ser las diferencias de anchura menos cuantiosas que las de longitud, les estará dando menos importancia. Por esta razón, el pescador decide incorporar la estadística de los datos a la medida de distancia, ponderando según su varianza: las variables con menos varianza tendrán más importancia que las de mayor varianza. De esta forma pretende igualar la importancia de la anchura y la longitud en el resultado final. La expresión quedaría:

 

Donde   es la desviación estándar de la componente   de los vectores de medidas.

O en notación vectorial:  

Donde   es una matriz diagonal cuyos elementos en la diagonal  

Pero la expresión anterior tiene un problema, y es que la longitud y anchura de los salmones no son independientes; es decir, la anchura depende en cierta forma de la longitud, pues es más probable que un salmón largo sea también más ancho. Para incorporar la dependencia entre las dos variables. el pescador puede sustituir la matriz diagonal   por la matriz de covarianza  :

 

Que es la distancia de Mahalanobis.

Bibliografía

  • P.C. Mahalanobis, On the generalised distance in statistics, Proceedings of the National Institute of Science of India 12 (1936) 49-55.
  •   Datos: Q1334846

distancia, mahalanobis, estadística, distancia, mahalanobis, medida, distancia, introducida, mahalanobis, 1936, utilidad, radica, forma, determinar, similitud, entre, variables, aleatorias, multidimensionales, diferencia, distancia, euclídea, tiene, cuenta, co. En estadistica la distancia de Mahalanobis es una medida de distancia introducida por Mahalanobis en 1936 Su utilidad radica en que es una forma de determinar la similitud entre dos variables aleatorias multidimensionales Se diferencia de la distancia euclidea en que tiene en cuenta la correlacion entre las variables aleatorias Formalmente la distancia de Mahalanobis entre dos variables aleatorias con la misma distribucion de probabilidad x displaystyle vec x y y displaystyle vec y con matriz de covarianza S displaystyle Sigma se define como d m x y x y T S 1 x y displaystyle d m vec x vec y sqrt vec x vec y T Sigma 1 vec x vec y Propiedades como distancia EditarLa distancia de Mahalanobis cumple las siguientes propiedades necesarias para ser una distancia Semipositividad d a b 0 a b X displaystyle d a b geq 0 forall a b in X y ademas d a b 0 s i a b displaystyle d a b 0 si a b Es decir la distancia entre dos puntos de las mismas coordenadas es cero y si tienen coordenadas distintas la distancia es positiva pero nunca negativa Simetria d a b d b a a b X displaystyle d a b d b a forall a b in X Intuitivamente la distancia entre a displaystyle a y b displaystyle b es la misma que entre b displaystyle b y a displaystyle a Desigualdad triangular d a b d a c d c b a b c X displaystyle d a b leq d a c d c b forall a b c in X Ejemplo practico EditarPara entender la utilidad de la distancia de Mahalanobis se puede considerar el siguiente ejemplo practico Un pescador quiere poder medir la similitud entre dos salmones por ejemplo porque quiere clasificarlos en dos tipos para su venta y poder asi vender los grandes mas caros Para cada salmon mide su anchura y su longitud Con estos datos construye un vector x i x 1 i x 2 i T displaystyle vec x i x 1i x 2i T para cada salmon i displaystyle i La longitud de los salmones pescados es una variable aleatoria que toma valores entre 50 y 100cm mientras que su anchura esta entre 10 y 20cm Si el pescador usase la distancia euclidea d e x 1 x 2 x 11 x 12 2 x 21 x 22 2 displaystyle d e vec x 1 vec x 2 sqrt x 11 x 12 2 x 21 x 22 2 O en notacion vectorial d e x 1 x 2 x 1 x 2 T x 1 x 2 displaystyle d e vec x 1 vec x 2 sqrt vec x 1 vec x 2 T vec x 1 vec x 2 al ser las diferencias de anchura menos cuantiosas que las de longitud les estara dando menos importancia Por esta razon el pescador decide incorporar la estadistica de los datos a la medida de distancia ponderando segun su varianza las variables con menos varianza tendran mas importancia que las de mayor varianza De esta forma pretende igualar la importancia de la anchura y la longitud en el resultado final La expresion quedaria d 2 x 1 x 2 x 11 x 12 s 1 2 x 21 x 22 s 2 2 displaystyle d 2 vec x 1 vec x 2 sqrt left frac x 11 x 12 sigma 1 right 2 left frac x 21 x 22 sigma 2 right 2 Donde s i displaystyle sigma i es la desviacion estandar de la componente i displaystyle i de los vectores de medidas O en notacion vectorial d e x 1 x 2 x 1 x 2 T S 1 x 1 x 2 displaystyle d e vec x 1 vec x 2 sqrt vec x 1 vec x 2 T S 1 vec x 1 vec x 2 Donde S displaystyle S es una matriz diagonal cuyos elementos en la diagonal s i i s i 2 displaystyle s ii sigma i 2 Pero la expresion anterior tiene un problema y es que la longitud y anchura de los salmones no son independientes es decir la anchura depende en cierta forma de la longitud pues es mas probable que un salmon largo sea tambien mas ancho Para incorporar la dependencia entre las dos variables el pescador puede sustituir la matriz diagonal S displaystyle S por la matriz de covarianza S displaystyle Sigma d m x 1 x 2 x 1 x 2 T S 1 x 1 x 2 displaystyle d m vec x 1 vec x 2 sqrt vec x 1 vec x 2 T Sigma 1 vec x 1 vec x 2 Que es la distancia de Mahalanobis Bibliografia EditarP C Mahalanobis On the generalised distance in statistics Proceedings of the National Institute of Science of India 12 1936 49 55 Datos Q1334846 Obtenido de https es wikipedia org w index php title Distancia de Mahalanobis amp oldid 139310213, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos