fbpx
Wikipedia

Correlación

En probabilidad y estadística, la correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación entre ellas si al disminuir los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad (Véase cum hoc ergo propter hoc).

Fuerza, sentido y forma de la correlación

La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales componentes elementales de una línea de ajuste y, por lo tanto, de una correlación, son la fuerza, el sentido y la forma:

  • La fuerza extrema según el caso, mide el grado en que la línea representa a la nube de puntos: si la nube es estrecha y alargada, se representa por una línea recta, lo que indica que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o circular, la relación es débil.
  • El sentido mide la variación de los valores de B con respecto a A: si al crecer los valores de A lo hacen los de B, la relación es directa (pendiente positiva); si al crecer los valores de A disminuyen los de B, la relación es inversa (pendiente negativa).
  • La forma establece el tipo de línea que define el mejor ajuste: la línea recta, la curva monotónica o la curva no monotónica

Coeficientes de correlación

Existen diversos coeficientes que miden el grado de correlación, adaptados a la naturaleza de los datos. El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza de dos variables entre el producto de sus desviaciones estándar. Otros coeficientes son:

Interpretación geométrica

Dados los valores muestrales de dos variables aleatorias   e  , que pueden ser consideradas como vectores en un espacio de n dimensiones, pueden construirse los "vectores centrados" como:

  e  .

El coseno del ángulo alfa entre estos vectores es dado por la fórmula siguiente:

 

Pues   es el coeficiente de correlación muestral de Pearson. El coeficiente de correlación es el coseno del ángulo entre ambos vectores centrados:

  • Si r = 1, el ángulo  °, ambos vectores son colineales (paralelos).
  • Si r = 0, el ángulo  °, ambos vectores son ortogonales.
  • Si r =-1, el ángulo  °, ambos vectores son colineales de dirección opuesto.

Más generalmente:  .

Por supuesto, desde el punto vista geométrico, no hablamos de correlación lineal: el coeficiente de correlación tiene siempre un sentido, cualquiera sea su valor entre -1 y 1. Nos informa de modo preciso, no tanto sobre el grado de dependencia entre las variables, sino sobre su distancia angular en la hiperesfera de n dimensiones.

La Iconografía de las correlaciones es un método de análisis multidimensional que reposa en esta idea. La correlación lineal se da cuando en una nube de puntos se encuentran o se distribuyen alrededor de una recta.

La fórmula de correlación para dos series distintas con cierto desfase "k", está dada por la fórmula:

 

Distribución del coeficiente de correlación

El coeficiente de correlación muestral o analítico de una muestra es de hecho una variable aleatoria, eso significa que si repetimos un experimento o consideramos diferentes muestras se obtendrán valores diferentes y por tanto el coeficiente de correlación muestral calculado a partir de ellas tendrá valores ligeramente diferentes. Para muestras grandes la variación en dicho coeficiente será menor que para muestras pequeñas. R. A. Fisher fue el primero en determinar la distribución de probabilidad para el coeficiente de correlación.

Si las dos variables aleatorias que trata de relacionarse proceden de una distribución gaussiana bivariante entonces el coeficiente de correlación r sigue una distribución de probabilidad dada por:[1][2]

 

donde:

  es la distribución gamma
  es la función gaussiana hipergeométrica.

Nótese que el valor esperado del coeficiente de correlación muestral r es:

 

por tanto, r es estimador sesgado de  . Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuación:

  para  

Aunque, la solución:

 

es subóptima. Se puede obtener un estimador sesgado con mínima varianza para grandes valores de n, con sesgo de orden   buscando el máximo de la expresión:

 , i.e.  

En el caso especial de que  , la distribución original puede ser reescrita como:

 

donde   es la función beta.

Referencias

  1. Kenney, J. F. and Keeping, E. S., Mathematics of Statistics, Pt. 2, 2nd ed. Princeton, NJ: Van Nostrand, 1951.
  2. Correlation Coefficient - Bivariate Normal Distribution

Enlaces externos

  •   Datos: Q186290
  •   Multimedia: Correlation

correlación, para, otros, usos, este, término, véase, desambiguación, probabilidad, estadística, correlación, indica, fuerza, dirección, relación, lineal, proporcionalidad, entre, variables, estadísticas, considera, variables, cuantitativas, están, correlacion. Para otros usos de este termino vease Correlacion desambiguacion En probabilidad y estadistica la correlacion indica la fuerza y la direccion de una relacion lineal y proporcionalidad entre dos variables estadisticas Se considera que dos variables cuantitativas estan correlacionadas cuando los valores de una de ellas varian sistematicamente con respecto a los valores homonimos de la otra si tenemos dos variables A y B existe correlacion entre ellas si al disminuir los valores de A lo hacen tambien los de B y viceversa La correlacion entre dos variables no implica por si misma ninguna relacion de causalidad Vease cum hoc ergo propter hoc Indice 1 Fuerza sentido y forma de la correlacion 2 Coeficientes de correlacion 2 1 Interpretacion geometrica 2 2 Distribucion del coeficiente de correlacion 3 Referencias 4 Enlaces externosFuerza sentido y forma de la correlacion EditarLa relacion entre dos variables cuantitativas queda representada mediante la linea de mejor ajuste trazada a partir de la nube de puntos Los principales componentes elementales de una linea de ajuste y por lo tanto de una correlacion son la fuerza el sentido y la forma La fuerza extrema segun el caso mide el grado en que la linea representa a la nube de puntos si la nube es estrecha y alargada se representa por una linea recta lo que indica que la relacion es fuerte si la nube de puntos tiene una tendencia eliptica o circular la relacion es debil El sentido mide la variacion de los valores de B con respecto a A si al crecer los valores de A lo hacen los de B la relacion es directa pendiente positiva si al crecer los valores de A disminuyen los de B la relacion es inversa pendiente negativa La forma establece el tipo de linea que define el mejor ajuste la linea recta la curva monotonica o la curva no monotonicaCoeficientes de correlacion EditarExisten diversos coeficientes que miden el grado de correlacion adaptados a la naturaleza de los datos El mas conocido es el coeficiente de correlacion de Pearson introducido en realidad por Francis Galton que se obtiene dividiendo la covarianza de dos variables entre el producto de sus desviaciones estandar Otros coeficientes son Coeficiente de correlacion de Spearman Correlacion canonicaInterpretacion geometrica Editar Dados los valores muestrales de dos variables aleatorias X x 1 x n displaystyle X x 1 ldots x n e Y y 1 y n displaystyle Y y 1 ldots y n que pueden ser consideradas como vectores en un espacio de n dimensiones pueden construirse los vectores centrados como X x 1 x x n x displaystyle X x 1 bar x ldots x n bar x e Y y 1 y y n y displaystyle Y y 1 bar y ldots y n bar y El coseno del angulo alfa entre estos vectores es dado por la formula siguiente r cos a i 1 N x i x y i y i 1 N x i x 2 i 1 N y i y 2 displaystyle r cos alpha dfrac displaystyle sum i 1 N x i bar x cdot y i bar y sqrt displaystyle sum i 1 N x i bar x 2 cdot sqrt displaystyle sum i 1 N y i bar y 2 Pues cos a displaystyle cos alpha es el coeficiente de correlacion muestral de Pearson El coeficiente de correlacion es el coseno del angulo entre ambos vectores centrados Si r 1 el angulo a 0 displaystyle alpha 0 ambos vectores son colineales paralelos Si r 0 el angulo a 90 displaystyle alpha 90 ambos vectores son ortogonales Si r 1 el angulo a 180 displaystyle alpha 180 ambos vectores son colineales de direccion opuesto Mas generalmente a arccos r displaystyle alpha arccos r Por supuesto desde el punto vista geometrico no hablamos de correlacion lineal el coeficiente de correlacion tiene siempre un sentido cualquiera sea su valor entre 1 y 1 Nos informa de modo preciso no tanto sobre el grado de dependencia entre las variables sino sobre su distancia angular en la hiperesfera de n dimensiones La Iconografia de las correlaciones es un metodo de analisis multidimensional que reposa en esta idea La correlacion lineal se da cuando en una nube de puntos se encuentran o se distribuyen alrededor de una recta La formula de correlacion para dos series distintas con cierto desfase k esta dada por la formula r k i 1 N k x i x y i k y i 1 N k x i x 2 i k 1 N y i y 2 displaystyle r k dfrac displaystyle sum i 1 N k x i bar x cdot y i k bar y sqrt displaystyle sum i 1 N k x i bar x 2 cdot sqrt displaystyle sum i k 1 N y i bar y 2 Distribucion del coeficiente de correlacion Editar El coeficiente de correlacion muestral o analitico de una muestra es de hecho una variable aleatoria eso significa que si repetimos un experimento o consideramos diferentes muestras se obtendran valores diferentes y por tanto el coeficiente de correlacion muestral calculado a partir de ellas tendra valores ligeramente diferentes Para muestras grandes la variacion en dicho coeficiente sera menor que para muestras pequenas R A Fisher fue el primero en determinar la distribucion de probabilidad para el coeficiente de correlacion Si las dos variables aleatorias que trata de relacionarse proceden de una distribucion gaussiana bivariante entonces el coeficiente de correlacion r sigue una distribucion de probabilidad dada por 1 2 f r n 2 G n 1 1 r 2 n 1 2 1 r 2 n 4 2 2 p G n 1 2 1 r r n 3 2 2 F 1 1 2 1 2 2 n 1 2 r r 1 2 displaystyle f left r right frac left n 2 right mathbf Gamma left n 1 right left 1 rho 2 right frac n 1 2 left 1 r 2 right frac n 4 2 sqrt 2 pi mathbf Gamma left n frac 1 2 right left 1 rho r right n frac 3 2 mathbf 2 F 1 left frac 1 2 frac 1 2 frac 2n 1 2 frac rho r 1 2 right donde G displaystyle mathbf Gamma es la distribucion gamma 2 F 1 a b c z displaystyle mathbf 2 F 1 a b c z es la funcion gaussiana hipergeometrica Notese que el valor esperado del coeficiente de correlacion muestral r es E r r r 1 r 2 2 n 1 displaystyle mathbb E left r right rho frac rho left 1 rho 2 right 2 left n 1 right cdots por tanto r es estimador sesgado de r displaystyle rho Puede obtenerse un estimador aproximado no sesgado resolviendo la ecuacion r E r r r 1 r 2 2 n 1 displaystyle bar r mathbb E left r right rho frac rho left 1 rho 2 right 2 left n 1 right para r displaystyle rho Aunque la solucion r r 1 1 r 2 2 n 1 displaystyle rho r left 1 frac 1 r 2 2 left n 1 right right es suboptima Se puede obtener un estimador sesgado con minima varianza para grandes valores de n con sesgo de orden 1 n 1 displaystyle frac 1 n 1 buscando el maximo de la expresion log f r displaystyle log f left r right i e r r 1 1 r 2 2 n 1 displaystyle hat rho r left 1 frac 1 r 2 2 left n 1 right right En el caso especial de que r 0 displaystyle rho 0 la distribucion original puede ser reescrita como f r 1 r 2 n 4 2 B 1 2 n 2 2 displaystyle f left r right frac left 1 r 2 right frac n 4 2 mathbf B left frac 1 2 frac n 2 2 right donde B displaystyle mathbf B es la funcion beta Referencias Editar Kenney J F and Keeping E S Mathematics of Statistics Pt 2 2nd ed Princeton NJ Van Nostrand 1951 Correlation Coefficient Bivariate Normal DistributionEnlaces externos Editar Wikcionario tiene definiciones y otra informacion sobre correlacion Diccionario Estadistico Divestadistica en castellano 1 enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Simulacion de la correlacion entre dos variables discretas con R lenguaje de programacion Datos Q186290 Multimedia Correlation Obtenido de https es wikipedia org w index php title Correlacion amp oldid 139331956, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos