fbpx
Wikipedia

Correlación de la distancia

En estadística y en teoría de la probabilidad, la correlación de la distancia o covarianza de la distancia es una medida de dependencia entre dos vectores aleatorios emparejados, de dimensión arbitraria y no necesariamente igual. El coeficiente de correlación de la distancia poblacional es cero si y solo si los vectores aleatorios son independientes. Por lo tanto, la correlación de la distancia mide tanto la asociación lineal como la no lineal entre dos variables aleatorias o vectores aleatorios. Esto contrasta con el coeficiente de correlación de Pearson, que solo puede detectar una asociación lineal entre dos variables aleatorias.

Diversos conjuntos puntos (xy), con el coeficiente de la distancia de correlación de x e y para cada conjunto. Compárese con el gráfico sobre correlación

La correlación de la distancia se puede utilizar para realizar una prueba estadística de dependencia con un remuestreo. En un primer paso se calcula la correlación de la distancia (que implica el recentrado de las matrices de la distancia euclidianas) entre dos vectores aleatorios, y luego se compara este valor con las correlaciones de la distancia de muchos cruces de datos.

Trasfondo

La medida clásica de dependencia, el coeficiente de correlación de Pearson,[1]​ es principalmente sensible a una relación lineal entre dos variables. La correlación de la distancia fue introducida en 2005 por Gábor J. Székely en varias conferencias para tratar esta deficiencia de la correlación de Pearson, a saber, que puede ser fácilmente cero para variables dependientes. La correlación = 0 (no correlacionada) no implica independencia, mientras que la correlación de la distancia = 0 implica independencia. Los primeros resultados sobre la correlación de la distancia se publicaron en 2007 y 2009.[2][3]​ Se demostró que la covarianza de la distancia es la misma que la covarianza browniana.[3]​ Estas medidas son ejemplos de distancias de la energía.

La correlación de la distancia se deriva de un conjunto de otras cantidades que se utilizan en su especificación, concretamente: la varianza de la distancia, la desviación estándar de la distancia, y la covarianza de la distancia. Estas cantidades tienen los mismos roles que los momentos ordinarios, con los nombres correspondientes en la especificación del coeficiente de correlación de Pearson.

Definiciones

Covarianza de la distancia

Se define primero la covarianza de la distancia de la muestra. Sea (XkYk), k = 1, 2, ..., n una muestra estadística de un par de valores reales o variables aleatorias con valores vectoriales (XY). Primero, se calculan las matrices de distancias (de orden nxn) (aj, k) y (bj, k) que contienen todas las distancias por pares

 

donde ||⋅|| denota la norma vectorial. Luego, se toman todas las distancias doblemente centradas

 

donde   es la media de la fila j-ésima,   es la media de la columna k-ésima, y   es la gran media de la matriz de la distancia de la muestra X. La notación es similar para los valores de b. En las matrices de la distancias centradas ( Aj, k) y ( Bj,k), todas las filas y todas las columnas se suman cero. La covarianza de la distancia de la muestra al cuadrado (un escalar) es simplemente el promedio aritmético de los productos Aj, kBj, k:

 

El estadístico Tn = n dCov2n (X, Y) determina una prueba multivariable consistente de independencia de vectores aleatorios en dimensiones arbitrarias. Para un ejemplo, véase la función dcov.test en el paquete informático energy escrito en lenguaje R.[4]

El valor poblacional de la covarianza de la distancia puede definirse en la misma línea. Sea X una variable aleatoria que toma valores en un espacio euclidiano dimensional p con una distribución de probabilidad μ y sea Y una variable aleatoria que toma valores en un espacio euclidiano de dimensión q con distribución de probabilidad ν, y supóngase que X e Y tienen expectativas finitas. Escribiendo

 

Finalmente, se define el valor poblacional de la covarianza de la distancia al cuadrado de X e Y como

 

Se puede demostrar que esto es equivalente a la siguiente definición:

 

donde E denota el valor esperado, y     y   son independientes e idénticamente distribuidas. Las variables aleatorias imprimadas   y   denotan copias independientes e idénticas, distribuidas de las variables   e  , y son igualmente independientes e idénticas.[5]​ La covarianza de la distancia se puede expresar en términos de la covarianza de Pearson clásica, cov, como sigue:

 

Esta identidad muestra que la covarianza de la distancia no es lo mismo que la covarianza de las distancias, cov(||XX' ||, ||YY' ||), que puede ser cero incluso si X e Y no son independientes.

Alternativamente, la covarianza de la distancia se puede definir como la norma L2 ponderada de la distancia entre la función característica conjunta de las variables aleatorias y el producto de sus funciones características marginales:[6]

 

donde  ,   y   son las funciones características de (X, Y), X, e Y, respectivamente; p, q denotan la dimensión euclidiana de X e Y, y por lo tanto de s y t, y cp, cq son constantes. La función de ponderación   se elige para producir una medida equivalente a la escala e invariante respecto a la rotación que no se anula para las variables dependientes.[6][7]​ Una interpretación de la definición de la función característica es que las variables eisX y eitY son representaciones cíclicas de X e Y con diferentes períodos dados por s y t, y la expresión ϕX, Y(s, t) − ϕX(s) ϕY(t) en el numerador de la función de definición de la covarianza de la distancia es simplemente la covarianza clásica de eisX y eitY. La definición de la función característica muestra claramente que dCov2 (X, Y) = 0 si y solo si X e Y son independientes.

Varianza de la distancia y desviación estándar

La "varianza de la distancia" es un caso especial de covarianza de la distancia cuando las dos variables son idénticas. El valor poblacional de la varianza de la distancia es la raíz cuadrada de

 

donde   denota el valor esperado,   es una copia independiente e idénticamente distribuida de   y   es independiente de   y de   y tiene la misma distribución que   y  .

La varianza de la distancia de una muestra es la raíz cuadrada de

 

concepto relacionado con la diferencia media (introducida en 1912 por Corrado Gini, aunque Gini no trabajó con distancias centradas).

La desviación estándar de la distancia es la raíz cuadrada de la varianza de la distancia.

Correlación de la distancia

La correlación de la distancia[2][3]​ de dos variables aleatorias se obtiene dividiendo su covarianza de la distancia por el producto de sus desviaciones estándar de la distancia. La correlación de la distancia es

 

y la correlación de la distancia de la muestra se define sustituyendo la covarianza de la distancia de la muestra y las varianzas de la distancia por los coeficientes de población anteriores.

Para un cálculo fácil de la correlación de la distancia de la muestra, véase la función dcor en el paquete energy, escrito en código R.[4]

Propiedades

Correlación de la distancia

i.   y  ; esto contrasta con la correlación de Pearson, que puede ser negativa.
ii.   si y solo si X e Y son independientes.
iii.   implica que las dimensiones de los subespacios lineales abarcados por las muestras de X e Y respectivamente son casi seguramente iguales y si se asume que estos subespacios son iguales, entonces en este subespacio   para algunos vector A, escalar b, y matriz ortogonal  .

Covarianza de la distancia

i.   y  ;
ii.  
para todos los vectores constantes  , los escalares  , y las matrices ortonormales  .
iii. Si los vectores aleatorios   y   son independientes entonces
 
La igualdad se mantiene si y solo si   e   son ambos constantes, o   e   son ambos constantes, o   son mutuamente independientes.
iv.   si y solo si X e Y son independientes.

Esta última propiedad es el efecto más importante de trabajar con distancias centradas.

El indicador estadístico   es un estimador sesgado de  . Bajo la independencia de X e Y[8]

 

Székely y Rizzo  dan un estimador no sesgado.[9]

Varianza de la distancia

i.   si y solo si   casi seguramente.
ii.   si y solo si cada observación de la muestra es idéntica.
iii.   para todo vector constante A, escalares b, y matrices ortonormales  .
iv. Si X e Y son independientes entonces  .

La igualdad se mantiene en (iv) si y solo si una de las variables aleatorias X o Y es una constante.

Generalización

La covarianza de la distancia puede generalizarse para incluir potencias de la distancia euclidiana. Definiendo

 

entonces, para cada  ;   e   son independientes si y solo si  . Es importante tener en cuenta que esta caracterización no es válida para el exponente  ; en este caso para   bivariado,   es una función determinista de la correlación de Pearson.[2]​ Si   y   son potencias   de las distancias correspondientes,  , entonces la covarianza de la distancia de la muestra   se puede definir como el número no negativo para el que

 

Se puede extender   a un espacio métrico con una variable aleatoria función de   e  : si   tiene la ley   en un espacio métrico con la métrica  , se define  ,  , y (siempre que   sea finito, es decir,   tenga un primer momento finito)  . Luego, si   tiene la ley   (en un espacio métrico posiblemente diferente con un primer momento finito), se define

 

Su valor es no negativo para todos los   si ambos espacios métricos tienen un tipo negativo.[10]​ Aquí, un espacio métrico   tiene tipo negativo si   es isométrico para un subconjunto de un espacio de Hilbert.[11]​ Si ambos espacios métricos tienen un tipo negativo fuerte, entonces   si   son independientes.[10]

Definición alternativa de covarianza de la distancia

La covarianza de la distancia original se ha definido como la raíz cuadrada de  , en lugar del coeficiente cuadrático en sí mismo.   tiene la propiedad de ser la distancia de la energía entre la distribución conjunta de   y el producto de sus marginales. Sin embargo, bajo esta definición, la varianza de la distancia, en lugar de la desviación estándar de la distancia de , se mide en las mismas unidades que las distancias  .

Alternativamente, se podría definir la covarianza de la distancia como el cuadrado de la distancia de la energía:   En este caso, la desviación estándar de la distancia   se mide en las mismas unidades que la distancia de  , y existe un estimador no sesgado para la covarianza de la distancia de la población.[9]

Bajo estas definiciones alternativas, la correlación de la distancia también se define como el cuadrado  , en lugar de la raíz cuadrada.

Formulación alternativa: covarianza browniana

La covarianza browniana tiene su origen en la generalización de la noción de covarianza a los procesos estocásticos. El cuadrado de la covarianza de las variables aleatorias X e Y se puede escribir de la siguiente forma:

 

donde E denota la esperanza matemática y las primas (') denotan copias independientes e idénticamente distribuidas. Se necesita la siguiente generalización de esta fórmula: si U(s), V(t) son procesos aleatorios arbitrarios definidos para todas las s y t reales, entonces se define la versión de X centrada en U por

 

siempre que exista el valor esperado condicional restado, denotando por YV la versión centrada en V de Y.[3][12][13]​ La covarianza (U, V) de (X, Y) se define como el número no negativo cuyo cuadrado es

 

siempre que el lado derecho sea no negativo y finito. El ejemplo más importante es cuando U y V son movimientos brownianos / procesos de Wiener independientes con expectativa cero y covarianza | s | + | t | − | st | = 2 min(s,t) (para s no negativo, solo t). (Esto es el doble de la covarianza del proceso de Wiener estándar; aquí el factor 2 simplifica los cálculos). En este caso, la covarianza (U, V) se llama covarianza browniana y se denota por

 

Se da una coincidencia sorprendente: la covarianza browniana es la misma que la covarianza de la distancia:

 

y por lo tanto, correlación browniana es lo mismo que correlación de la distancia.

Por otro lado, si se reemplaza el movimiento browniano con la función de identidad determinista id, entonces Covid (X, Y) es simplemente el valor absoluto de la clásica covarianza de Pearson.

 

Métricas relacionadas

Otras métricas correlacionales, incluidas las métricas correlacionales basadas en el núcleo (como el "Criterio de Independencia de Hilbert-Schmidt" o HSIC) también pueden detectar interacciones lineales y no lineales. Tanto la correlación de la distancia como las métricas basadas en el núcleo se pueden usar en métodos como análisis de la correlación canónica y análisis de componentes independientes para obtener un poder estadístico más fuerte.

Véase también

  • Coeficiente RV
  • Para una estadística de tercer orden relacionada, consúltese distancia oblicua

Referencias

  1. K. Pearson (1895)
  2. G. J. Szekely; M. L. Rizzo; N. K. Bakirov (2007), «Measuring and testing independence by correlation of distances», Annals of Statistics 35 (6): 2769-2794, arXiv:0803.4101, doi:10.1214/009053607000000505 .
  3. G. J. Székely & M. L. Rizzo (2009), "Brownian distance covariance", The Annals of Applied Statistics
  4. energy package for R
  5. Gábor J Székely, Maria L. Rizzo : Partial Distance Correlation with Methods for Dissimilarities, page 11
  6. Székely & Rizzo (2009) Theorem 7, (3.7), p. 1249.
  7. Székely, G. J.; Rizzo, M. L. (2012). «On the uniqueness of distance covariance». Statistics & Probability Letters 82 (12): 2278-2282. doi:10.1016/j.spl.2012.08.007. 
  8. Székely and Rizzo (2009), Rejoinder
  9. Székely & Rizzo (2014)
  10. Lyons, R. (2011) "Distance covariance in metric spaces". arΧiv:1106.5758
  11. Klebanov, L. B. (2005) N-distances and their Applications, Karolinum Press, Charles University, Prague.
  12. Bickel & Xu (2009)
  13. Kosorok (2009)

Bibliografía

  • Bickel, P.J. and Xu, Y. (2009) "Discussion of: Brownian distance covariance", Annals of Applied Statistics, 3 (4), 1266–1269. doi 10.1214/09-AOAS312Apdf
  • Gini, C. (1912). Variabilità e Mutabilità. Bologna: Tipografia di Paolo Cuppini.
  • Pearson, K. (1895). "Note on regression and inheritance in the case of two parents", Proceedings of the Royal Society, 58, 240–242
  • Pearson, K. (1920). "Notes on the history of correlation", Biometrika, 13, 25–45.
  • Székely, G. J. and Rizzo, M. L. (2009). "Brownian distance covariance", Annals of Applied Statistics, 3/4, 1233–1303. doi 10.1214/09-AOAS312 10.1214/09-AOAS312 pdf
  • Kosorok, M. R. (2009) "Discussion of: Brownian Distance Covariance", Annals of Applied Statistics, 3/4, 1270–1278. doi 10.1214/09-AOAS312B pdf
  • Székely, G.J. and Rizzo, M.L. (2014) Partial distance correlation with methods for dissimilarities, The Annals of Statistics, 42/6, 2382-2412.[1]pdf.

Enlaces externos

  • E-statistics (estadísticas de energía)
  •   Datos: Q5282862

correlación, distancia, estadística, teoría, probabilidad, correlación, distancia, covarianza, distancia, medida, dependencia, entre, vectores, aleatorios, emparejados, dimensión, arbitraria, necesariamente, igual, coeficiente, correlación, distancia, poblacio. En estadistica y en teoria de la probabilidad la correlacion de la distancia o covarianza de la distancia es una medida de dependencia entre dos vectores aleatorios emparejados de dimension arbitraria y no necesariamente igual El coeficiente de correlacion de la distancia poblacional es cero si y solo si los vectores aleatorios son independientes Por lo tanto la correlacion de la distancia mide tanto la asociacion lineal como la no lineal entre dos variables aleatorias o vectores aleatorios Esto contrasta con el coeficiente de correlacion de Pearson que solo puede detectar una asociacion lineal entre dos variables aleatorias Diversos conjuntos puntos x y con el coeficiente de la distancia de correlacion de x e y para cada conjunto Comparese con el grafico sobre correlacion La correlacion de la distancia se puede utilizar para realizar una prueba estadistica de dependencia con un remuestreo En un primer paso se calcula la correlacion de la distancia que implica el recentrado de las matrices de la distancia euclidianas entre dos vectores aleatorios y luego se compara este valor con las correlaciones de la distancia de muchos cruces de datos Indice 1 Trasfondo 2 Definiciones 2 1 Covarianza de la distancia 2 2 Varianza de la distancia y desviacion estandar 2 3 Correlacion de la distancia 3 Propiedades 3 1 Correlacion de la distancia 3 2 Covarianza de la distancia 3 3 Varianza de la distancia 4 Generalizacion 5 Definicion alternativa de covarianza de la distancia 6 Formulacion alternativa covarianza browniana 7 Metricas relacionadas 8 Vease tambien 9 Referencias 10 Bibliografia 11 Enlaces externosTrasfondo EditarLa medida clasica de dependencia el coeficiente de correlacion de Pearson 1 es principalmente sensible a una relacion lineal entre dos variables La correlacion de la distancia fue introducida en 2005 por Gabor J Szekely en varias conferencias para tratar esta deficiencia de la correlacion de Pearson a saber que puede ser facilmente cero para variables dependientes La correlacion 0 no correlacionada no implica independencia mientras que la correlacion de la distancia 0 implica independencia Los primeros resultados sobre la correlacion de la distancia se publicaron en 2007 y 2009 2 3 Se demostro que la covarianza de la distancia es la misma que la covarianza browniana 3 Estas medidas son ejemplos de distancias de la energia La correlacion de la distancia se deriva de un conjunto de otras cantidades que se utilizan en su especificacion concretamente la varianza de la distancia la desviacion estandar de la distancia y la covarianza de la distancia Estas cantidades tienen los mismos roles que los momentos ordinarios con los nombres correspondientes en la especificacion del coeficiente de correlacion de Pearson Definiciones EditarCovarianza de la distancia Editar Se define primero la covarianza de la distancia de la muestra Sea Xk Yk k 1 2 n una muestra estadistica de un par de valores reales o variables aleatorias con valores vectoriales X Y Primero se calculan las matrices de distancias de orden nxn aj k y bj k que contienen todas las distancias por pares a j k X j X k j k 1 2 n b j k Y j Y k j k 1 2 n displaystyle begin aligned a j k amp X j X k qquad j k 1 2 ldots n b j k amp Y j Y k qquad j k 1 2 ldots n end aligned donde denota la norma vectorial Luego se toman todas las distancias doblemente centradas A j k a j k a j a k a B j k b j k b j b k b displaystyle A j k a j k overline a j cdot overline a cdot k overline a cdot cdot qquad B j k b j k overline b j cdot overline b cdot k overline b cdot cdot donde a j displaystyle textstyle overline a j cdot es la media de la fila j esima a k displaystyle textstyle overline a cdot k es la media de la columna k esima y a displaystyle textstyle overline a cdot cdot es la gran media de la matriz de la distancia de la muestra X La notacion es similar para los valores de b En las matrices de la distancias centradas Aj k y Bj k todas las filas y todas las columnas se suman cero La covarianza de la distancia de la muestra al cuadrado un escalar es simplemente el promedio aritmetico de los productos Aj kBj k dCov n 2 X Y 1 n 2 j 1 n k 1 n A j k B j k displaystyle operatorname dCov n 2 X Y frac 1 n 2 sum j 1 n sum k 1 n A j k B j k El estadistico Tn n dCov2n X Y determina una prueba multivariable consistente de independencia de vectores aleatorios en dimensiones arbitrarias Para un ejemplo vease la funcion dcov test en el paquete informatico energy escrito en lenguaje R 4 El valor poblacional de la covarianza de la distancia puede definirse en la misma linea Sea X una variable aleatoria que toma valores en un espacio euclidiano dimensional p con una distribucion de probabilidad m y sea Y una variable aleatoria que toma valores en un espacio euclidiano de dimension q con distribucion de probabilidad n y supongase que X e Y tienen expectativas finitas Escribiendo a m x E X x D m E a m X d m x x x x a m x a m x D m displaystyle a mu x operatorname E X x quad D mu operatorname E a mu X quad d mu x x x x a mu x a mu x D mu Finalmente se define el valor poblacional de la covarianza de la distancia al cuadrado de X e Y como dCov 2 X Y E d m X X d n Y Y displaystyle operatorname dCov 2 X Y operatorname E big d mu X X d nu Y Y big Se puede demostrar que esto es equivalente a la siguiente definicion dCov 2 X Y E X X Y Y E X X E Y Y E X X Y Y E X X Y Y E X X Y Y E X X E Y Y 2 E X X Y Y displaystyle begin aligned operatorname dCov 2 X Y amp operatorname E X X Y Y operatorname E X X operatorname E Y Y amp qquad operatorname E X X Y Y operatorname E X X Y Y amp operatorname E X X Y Y operatorname E X X operatorname E Y Y amp qquad 2 operatorname E X X Y Y end aligned donde E denota el valor esperado y X Y displaystyle textstyle X Y X Y displaystyle textstyle X Y y X Y displaystyle textstyle X Y son independientes e identicamente distribuidas Las variables aleatorias imprimadas X Y displaystyle textstyle X Y y X Y displaystyle textstyle X Y denotan copias independientes e identicas distribuidas de las variables X displaystyle X e Y displaystyle Y y son igualmente independientes e identicas 5 La covarianza de la distancia se puede expresar en terminos de la covarianza de Pearson clasica cov como sigue dCov 2 X Y cov X X Y Y 2 cov X X Y Y displaystyle operatorname dCov 2 X Y operatorname cov X X Y Y 2 operatorname cov X X Y Y Esta identidad muestra que la covarianza de la distancia no es lo mismo que la covarianza de las distancias cov X X Y Y que puede ser cero incluso si X e Y no son independientes Alternativamente la covarianza de la distancia se puede definir como la norma L2 ponderada de la distancia entre la funcion caracteristica conjunta de las variables aleatorias y el producto de sus funciones caracteristicas marginales 6 dCov 2 X Y 1 c p c q R p q f X Y s t f X s f Y t 2 s p 1 p t q 1 q d t d s displaystyle operatorname dCov 2 X Y frac 1 c p c q int mathbb R p q frac left varphi X Y s t varphi X s varphi Y t right 2 s p 1 p t q 1 q dt ds donde f X Y s t displaystyle varphi X Y s t f X s displaystyle varphi X s y f Y t displaystyle varphi Y t son las funciones caracteristicas de X Y X e Y respectivamente p q denotan la dimension euclidiana de X e Y y por lo tanto de s y t y cp cq son constantes La funcion de ponderacion c p c q s p 1 p t q 1 q 1 displaystyle c p c q s p 1 p t q 1 q 1 se elige para producir una medida equivalente a la escala e invariante respecto a la rotacion que no se anula para las variables dependientes 6 7 Una interpretacion de la definicion de la funcion caracteristica es que las variables eisX y eitY son representaciones ciclicas de X e Y con diferentes periodos dados por s y t y la expresion ϕX Y s t ϕX s ϕY t en el numerador de la funcion de definicion de la covarianza de la distancia es simplemente la covarianza clasica de eisX y eitY La definicion de la funcion caracteristica muestra claramente que dCov2 X Y 0 si y solo si X e Y son independientes Varianza de la distancia y desviacion estandar Editar La varianza de la distancia es un caso especial de covarianza de la distancia cuando las dos variables son identicas El valor poblacional de la varianza de la distancia es la raiz cuadrada de dVar 2 X E X X 2 E 2 X X 2 E X X X X displaystyle operatorname dVar 2 X operatorname E X X 2 operatorname E 2 X X 2 operatorname E X X X X donde E displaystyle operatorname E denota el valor esperado X displaystyle X es una copia independiente e identicamente distribuida de X displaystyle X y X displaystyle X es independiente de X displaystyle X y de X displaystyle X y tiene la misma distribucion que X displaystyle X y X displaystyle X La varianza de la distancia de una muestra es la raiz cuadrada de dVar n 2 X dCov n 2 X X 1 n 2 k ℓ A k ℓ 2 displaystyle operatorname dVar n 2 X operatorname dCov n 2 X X tfrac 1 n 2 sum k ell A k ell 2 concepto relacionado con la diferencia media introducida en 1912 por Corrado Gini aunque Gini no trabajo con distancias centradas La desviacion estandar de la distancia es la raiz cuadrada de la varianza de la distancia Correlacion de la distancia Editar La correlacion de la distancia 2 3 de dos variables aleatorias se obtiene dividiendo su covarianza de la distancia por el producto de sus desviaciones estandar de la distancia La correlacion de la distancia es dCor X Y dCov X Y dVar X dVar Y displaystyle operatorname dCor X Y frac operatorname dCov X Y sqrt operatorname dVar X operatorname dVar Y y la correlacion de la distancia de la muestra se define sustituyendo la covarianza de la distancia de la muestra y las varianzas de la distancia por los coeficientes de poblacion anteriores Para un calculo facil de la correlacion de la distancia de la muestra vease la funcion dcor en el paquete energy escrito en codigo R 4 Propiedades EditarCorrelacion de la distancia Editar i 0 dCor n X Y 1 displaystyle 0 leq operatorname dCor n X Y leq 1 y 0 dCor X Y 1 displaystyle 0 leq operatorname dCor X Y leq 1 esto contrasta con la correlacion de Pearson que puede ser negativa ii dCor X Y 0 displaystyle operatorname dCor X Y 0 si y solo si X e Y son independientes iii dCor n X Y 1 displaystyle operatorname dCor n X Y 1 implica que las dimensiones de los subespacios lineales abarcados por las muestras de X e Y respectivamente son casi seguramente iguales y si se asume que estos subespacios son iguales entonces en este subespacio Y A b C X displaystyle Y A b mathbf C X para algunos vector A escalar b y matriz ortogonal C displaystyle mathbf C Covarianza de la distancia Editar i dCov X Y 0 displaystyle operatorname dCov X Y geq 0 y dCov n X Y 0 displaystyle operatorname dCov n X Y geq 0 ii dCov 2 a 1 b 1 C 1 X a 2 b 2 C 2 Y b 1 b 2 dCov 2 X Y displaystyle operatorname dCov 2 a 1 b 1 mathbf C 1 X a 2 b 2 mathbf C 2 Y b 1 b 2 operatorname dCov 2 X Y para todos los vectores constantes a 1 a 2 displaystyle a 1 a 2 los escalares b 1 b 2 displaystyle b 1 b 2 y las matrices ortonormales C 1 C 2 displaystyle mathbf C 1 mathbf C 2 dd iii Si los vectores aleatorios X 1 Y 1 displaystyle X 1 Y 1 y X 2 Y 2 displaystyle X 2 Y 2 son independientes entoncesdCov X 1 X 2 Y 1 Y 2 dCov X 1 Y 1 dCov X 2 Y 2 displaystyle operatorname dCov X 1 X 2 Y 1 Y 2 leq operatorname dCov X 1 Y 1 operatorname dCov X 2 Y 2 dd La igualdad se mantiene si y solo si X 1 displaystyle X 1 e Y 1 displaystyle Y 1 son ambos constantes o X 2 displaystyle X 2 e Y 2 displaystyle Y 2 son ambos constantes o X 1 X 2 Y 1 Y 2 displaystyle X 1 X 2 Y 1 Y 2 son mutuamente independientes iv dCov X Y 0 displaystyle operatorname dCov X Y 0 si y solo si X e Y son independientes Esta ultima propiedad es el efecto mas importante de trabajar con distancias centradas El indicador estadistico dCov n 2 X Y displaystyle operatorname dCov n 2 X Y es un estimador sesgado de dCov 2 X Y displaystyle operatorname dCov 2 X Y Bajo la independencia de X e Y 8 E dCov n 2 X Y n 1 n 2 n 2 dCov 2 X Y E X X E Y Y n 1 n 2 E X X E Y Y displaystyle begin aligned operatorname E operatorname dCov n 2 X Y amp frac n 1 n 2 left n 2 operatorname dCov 2 X Y operatorname E X X operatorname E Y Y right 6pt amp frac n 1 n 2 operatorname E X X operatorname E Y Y end aligned Szekely y RizzodCov 2 X Y displaystyle operatorname dCov 2 X Y dan un estimador no sesgado 9 Varianza de la distancia Editar i dVar X 0 displaystyle operatorname dVar X 0 si y solo si X E X displaystyle X operatorname E X casi seguramente ii dVar n X 0 displaystyle operatorname dVar n X 0 si y solo si cada observacion de la muestra es identica iii dVar A b C X b dVar X displaystyle operatorname dVar A b mathbf C X b operatorname dVar X para todo vector constante A escalares b y matrices ortonormales C displaystyle mathbf C iv Si X e Y son independientes entonces dVar X Y dVar X dVar Y displaystyle operatorname dVar X Y leq operatorname dVar X operatorname dVar Y La igualdad se mantiene en iv si y solo si una de las variables aleatorias X o Y es una constante Generalizacion EditarLa covarianza de la distancia puede generalizarse para incluir potencias de la distancia euclidiana Definiendo dCov 2 X Y a E X X a Y Y a E X X a E Y Y a 2 E X X a Y Y a displaystyle begin aligned operatorname dCov 2 X Y alpha amp operatorname E X X alpha Y Y alpha operatorname E X X alpha operatorname E Y Y alpha amp qquad 2 operatorname E X X alpha Y Y alpha end aligned entonces para cada 0 lt a lt 2 displaystyle 0 lt alpha lt 2 X displaystyle X e Y displaystyle Y son independientes si y solo si dCov 2 X Y a 0 displaystyle operatorname dCov 2 X Y alpha 0 Es importante tener en cuenta que esta caracterizacion no es valida para el exponente a 2 displaystyle alpha 2 en este caso para X Y displaystyle X Y bivariado dCor X Y a 2 displaystyle operatorname dCor X Y alpha 2 es una funcion determinista de la correlacion de Pearson 2 Si a k ℓ displaystyle a k ell y b k ℓ displaystyle b k ell son potencias a displaystyle alpha de las distancias correspondientes 0 lt a 2 displaystyle 0 lt alpha leq 2 entonces la covarianza de la distancia de la muestra a displaystyle alpha se puede definir como el numero no negativo para el que dCov n 2 X Y a 1 n 2 k ℓ A k ℓ B k ℓ displaystyle operatorname dCov n 2 X Y alpha frac 1 n 2 sum k ell A k ell B k ell Se puede extender dCov displaystyle operatorname dCov a un espacio metrico con una variable aleatoria funcion de X displaystyle X e Y displaystyle Y si X displaystyle X tiene la ley m displaystyle mu en un espacio metrico con la metrica d displaystyle d se define a m x E d X x displaystyle a mu x operatorname E d X x D m E a m X displaystyle D mu operatorname E a mu X y siempre que a m displaystyle a mu sea finito es decir X displaystyle X tenga un primer momento finito d m x x d x x a m x a m x D m displaystyle d mu x x d x x a mu x a mu x D mu Luego si Y displaystyle Y tiene la ley n displaystyle nu en un espacio metrico posiblemente diferente con un primer momento finito se define dCov 2 X Y E d m X X d n Y Y displaystyle operatorname dCov 2 X Y operatorname E big d mu X X d nu Y Y big Su valor es no negativo para todos los X Y displaystyle X Y si ambos espacios metricos tienen un tipo negativo 10 Aqui un espacio metrico M d displaystyle M d tiene tipo negativo si M d 1 2 displaystyle M d 1 2 es isometrico para un subconjunto de un espacio de Hilbert 11 Si ambos espacios metricos tienen un tipo negativo fuerte entonces dCov 2 X Y 0 displaystyle operatorname dCov 2 X Y 0 si X Y displaystyle X Y son independientes 10 Definicion alternativa de covarianza de la distancia EditarLa covarianza de la distancia original se ha definido como la raiz cuadrada de dCov 2 X Y displaystyle operatorname dCov 2 X Y en lugar del coeficiente cuadratico en si mismo dCov X Y displaystyle operatorname dCov X Y tiene la propiedad de ser la distancia de la energia entre la distribucion conjunta de X Y displaystyle operatorname X Y y el producto de sus marginales Sin embargo bajo esta definicion la varianza de la distancia en lugar de la desviacion estandar de la distancia de se mide en las mismas unidades que las distancias X displaystyle operatorname X Alternativamente se podria definir la covarianza de la distancia como el cuadrado de la distancia de la energia dCov 2 X Y displaystyle operatorname dCov 2 X Y En este caso la desviacion estandar de la distancia X displaystyle X se mide en las mismas unidades que la distancia de X displaystyle X y existe un estimador no sesgado para la covarianza de la distancia de la poblacion 9 Bajo estas definiciones alternativas la correlacion de la distancia tambien se define como el cuadrado dCor 2 X Y displaystyle operatorname dCor 2 X Y en lugar de la raiz cuadrada Formulacion alternativa covarianza browniana EditarLa covarianza browniana tiene su origen en la generalizacion de la nocion de covarianza a los procesos estocasticos El cuadrado de la covarianza de las variables aleatorias X e Y se puede escribir de la siguiente forma cov X Y 2 E X E X X E X Y E Y Y E Y displaystyle operatorname cov X Y 2 operatorname E left big X operatorname E X big big X mathrm operatorname E X mathrm big big Y operatorname E Y big big Y mathrm operatorname E Y mathrm big right donde E denota la esperanza matematica y las primas denotan copias independientes e identicamente distribuidas Se necesita la siguiente generalizacion de esta formula si U s V t son procesos aleatorios arbitrarios definidos para todas las s y t reales entonces se define la version de X centrada en U por X U U X E X U X U t displaystyle X U U X operatorname E X left U X mid left U t right right siempre que exista el valor esperado condicional restado denotando por YV la version centrada en V de Y 3 12 13 La covarianza U V de X Y se define como el numero no negativo cuyo cuadrado es cov U V 2 X Y E X U X U Y V Y V displaystyle operatorname cov U V 2 X Y operatorname E left X U X U mathrm Y V Y V mathrm right siempre que el lado derecho sea no negativo y finito El ejemplo mas importante es cuando U y V son movimientos brownianos procesos de Wiener independientes con expectativa cero y covarianza s t s t 2 min s t para s no negativo solo t Esto es el doble de la covarianza del proceso de Wiener estandar aqui el factor 2 simplifica los calculos En este caso la covarianza U V se llama covarianza browniana y se denota por cov W X Y displaystyle operatorname cov W X Y Se da una coincidencia sorprendente la covarianza browniana es la misma que la covarianza de la distancia cov W X Y dCov X Y displaystyle operatorname cov mathrm W X Y operatorname dCov X Y y por lo tanto correlacion browniana es lo mismo que correlacion de la distancia Por otro lado si se reemplaza el movimiento browniano con la funcion de identidad determinista id entonces Covid X Y es simplemente el valor absoluto de la clasica covarianza de Pearson cov i d X Y cov X Y displaystyle operatorname cov mathrm id X Y left vert operatorname cov X Y right vert Metricas relacionadas EditarOtras metricas correlacionales incluidas las metricas correlacionales basadas en el nucleo como el Criterio de Independencia de Hilbert Schmidt o HSIC tambien pueden detectar interacciones lineales y no lineales Tanto la correlacion de la distancia como las metricas basadas en el nucleo se pueden usar en metodos como analisis de la correlacion canonica y analisis de componentes independientes para obtener un poder estadistico mas fuerte Vease tambien EditarCoeficiente RV Para una estadistica de tercer orden relacionada consultese distancia oblicuaReferencias Editar K Pearson 1895 a b c G J Szekely M L Rizzo N K Bakirov 2007 Measuring and testing independence by correlation of distances Annals of Statistics 35 6 2769 2794 arXiv 0803 4101 doi 10 1214 009053607000000505 a b c d G J Szekely amp M L Rizzo 2009 Brownian distance covariance The Annals of Applied Statistics a b energy package for R Gabor J Szekely Maria L Rizzo Partial Distance Correlation with Methods for Dissimilarities page 11 a b Szekely amp Rizzo 2009 Theorem 7 3 7 p 1249 Szekely G J Rizzo M L 2012 On the uniqueness of distance covariance Statistics amp Probability Letters 82 12 2278 2282 doi 10 1016 j spl 2012 08 007 Szekely and Rizzo 2009 Rejoinder a b Szekely amp Rizzo 2014 a b Lyons R 2011 Distance covariance in metric spaces arXiv 1106 5758 Klebanov L B 2005 N distances and their Applications Karolinum Press Charles University Prague Bickel amp Xu 2009 Kosorok 2009 Bibliografia EditarBickel P J and Xu Y 2009 Discussion of Brownian distance covariance Annals of Applied Statistics 3 4 1266 1269 doi 10 1214 09 AOAS312Apdf Gini C 1912 Variabilita e Mutabilita Bologna Tipografia di Paolo Cuppini Pearson K 1895 Note on regression and inheritance in the case of two parents Proceedings of the Royal Society 58 240 242 Pearson K 1920 Notes on the history of correlation Biometrika 13 25 45 Szekely G J and Rizzo M L 2009 Brownian distance covariance Annals of Applied Statistics 3 4 1233 1303 doi 10 1214 09 AOAS312 10 1214 09 AOAS312 pdf Kosorok M R 2009 Discussion of Brownian Distance Covariance Annals of Applied Statistics 3 4 1270 1278 doi 10 1214 09 AOAS312B pdf Szekely G J and Rizzo M L 2014 Partial distance correlation with methods for dissimilarities The Annals of Statistics 42 6 2382 2412 1 pdf Enlaces externos EditarE statistics estadisticas de energia Datos Q5282862Obtenido de https es wikipedia org w index php title Correlacion de la distancia amp oldid 128781959, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos