fbpx
Wikipedia

Desviación típica

En estadística, la desviación típica (también conocida como desviación estándar y desvío típico y representada de manera abreviada por la letra griega minúscula sigma σ o la letra latina s, así como por las siglas SD (de standard deviation, en algunos textos traducidos del inglés)) es una medida que se utiliza para cuantificar la variación o la dispersión de un conjunto de datos numéricos.[1]

Una gráfica de la distribución normal (o curva en forma de campana, o curva de Gauss), donde cada banda tiene un ancho de una vez la desviación estándar (véase también: regla 68-95-99.7)
Probabilidad acumulada de una distribución normal con valor esperado 0 y desviación estándar 1

Una desviación estándar baja indica que la mayor parte de los datos de una muestra tienden a estar agrupados cerca de su media (también denominada el valor esperado), mientras que una desviación estándar alta indica que los datos se extienden sobre un rango de valores más amplio.

Consideraciones generales

Fórmulas fundamentales

Variable aleatoria discreta:[2]

  (Media aritmética)
  (Población completa)
  (Muestra de una población)

Expresiones equivalentes:

  (Población completa)
  (Muestra de una población)

Variable aleatoria continua:

 

La desviación estándar de una variable aleatoria, población estadística, conjunto de datos o distribución de probabilidad es la raíz cuadrada de su varianza. Es algebraicamente más simple, aunque en la práctica menos robusta, que la desviación media.[3][4]​ Una propiedad útil de la desviación estándar es que, a diferencia de la varianza, se expresa en las mismas unidades que los datos a partir de los que se calcula.

Además de expresar la variabilidad de una población, la desviación estándar se usa comúnmente para medir la fiabilidad de las conclusiones estadísticas. Por ejemplo, el margen de error en los datos de los sondeos de opinión se determina calculando la desviación estándar esperada en los resultados si la misma encuesta se llevara a cabo varias veces. Esta interpretación de la desviación estándar a menudo se denomina "error estándar" de la estimación o "error estándar de la media" (cuando se refiere a una media). Se calcula como la desviación estándar de todas las medias que se calcularían a partir de esa población si se extrajera un número infinito de muestras y se calculase la media para cada muestra.

Es muy importante tener en cuenta que la desviación estándar de una población y el error estándar de una estadística obtenida a partir de esa población (como la media) son bastante diferentes, pero están relacionados (relacionados por la inversa de la raíz cuadrada del número de observaciones). El margen de error de una encuesta se calcula a partir del error estándar de la media (o, alternativamente, del producto de la desviación estándar de la población y la inversa de la raíz cuadrada del tamaño de la muestra, que es lo mismo) y es por lo general, aproximadamente el doble de la desviación estándar: la mitad del ancho de un intervalo de confianza del 95 por ciento.

En ciencia, muchos investigadores analizan la desviación estándar de los datos experimentales, y solo los efectos que se alejan mucho más de dos desviaciones estándar de lo que sería esperable, se consideran estadísticamente significativos: el error aleatorio normal o la variación en las mediciones se distinguen de esta manera de los efectos genuinos o asociaciones probables. En finanzas también es un indicador importante, puesto que la desviación estándar de la tasa de retorno de una inversión da una medida de su volatilidad.

Cuando solo está disponible una muestra de datos de una población, el término desviación estándar de la muestra o desviación estándar muestral, puede referirse a la cantidad mencionada anteriormente aplicada a esos datos, o también a una cantidad sobre la que se realiza un ajuste que sirve de estimación no sesgada de la desviación estándar de la población (es decir, de la desviación estándar de toda la población).

Ejemplos básicos

Desviación estándar muestral de la tasa metabólica de los petreles

El libro de Murray Logan "Biostatistical Design and Analysis Using R" da el ejemplo siguiente:[5]


Los naturalistas Furness y Bryant[6]​ midieron la tasa metabólica en reposo de 8 petreles reproductivos y de 6 hembras. La tabla muestra el conjunto de datos obtenidos por Furness.

Datos obtenidos por Furness de la tasa metabólica de los petreles del norte
Sexo Tasa metabólica Sexo Tasa metabólica
Macho 525.8 Hembra 727.7
Macho 605.7 Hembra 1086.5
Macho 843.3 Hembra 1091.0
Macho 1195.5 Hembra 1361.3
Macho 1945.6 Hembra 1490.5
Macho 2135.6 Hembra 1956.1
Macho 2308.7
Macho 2950.0
La gráfica muestra la tasa metabólica para machos y hembras. Por simple inspección visual, parece que la variabilidad de la tasa metabólica es mayor para los machos que para las hembras.

 

La desviación estándar de la muestra de la tasa metabólica para las hembras de petrel se calcula como se explica a continuación. La fórmula para calcular la desviación estándar de la muestra es

 

donde   son los valores observados de los elementos de la muestra,   es el valor medio de estas observaciones, y N es el número de observaciones de la muestra.

En la fórmula de la desviación estándar de la muestra, para este ejemplo, el numerador es la suma de las desviaciones al cuadrado de la tasa metabólica de cada animal respecto a la tasa metabólica media. La siguiente tabla muestra el cálculo de esta suma de desviaciones al cuadrado para los petreles hembra, cuya suma es de 886047.09, como se muestra en la tabla.

Cálculo de la suma de cuadrados para las hembras de petrel
Animal Sexo Tasa metabólica Media Diferencia con la media Diferencia con la media al cuadrado
1 Hembra 727.7 1285.5 -557.8 311140.84
2 Hembra 1086.5 1285.5 -199.0 39601.00
3 Hembra 1091.0 1285.5 -194.5 37830.25
4 Hembra 1361.3 1285.5 75.8 5745.64
5 Hembra 1490.5 1285.5 205.0 42025.00
6 Hembra 1956.1 1285.5 670.6 449704.36
Media de las tasas metabólicas: 1285.5 Suma de las diferencias al cuadrado: 886047.09

El denominador en la fórmula de la desviación estándar de la muestra es N-1, donde N es el número de hembras. En este ejemplo, hay N = 6 hembras, por lo que el denominador es 6-1 = 5. Por lo tanto, la desviación estándar de la muestra para los petreles hembra, es

 

Para los petreles macho, un cálculo similar proporciona una muestra de desviación estándar de 894.37, aproximadamente el doble que la desviación estándar para las hembras. La gráfica muestra los datos de la tasa metabólica, las medias (puntos rojos) y las desviaciones estándar (líneas rojas) para machos y hembras.

 

El uso de la desviación estándar de la muestra implica que estos 14 petreles son una muestra de una población mayor. Si estos 14 petreles comprendieran toda la población (si fueran los últimos 14 petreles sobrevivientes), entonces se podría hablar de la desviación estándar de la población, en lugar de la desviación estándar de la muestra. En la fórmula de la desviación estándar de la población, el denominador es N en lugar de N-1. No siempre es posible tomar medidas de una población completa, por lo que de manera predeterminada, las aplicaciones informáticas de estadística suelen calcular la desviación estándar de la muestra (es decir, dividiendo por N-1). De manera similar, los artículos de revistas se refieren a la desviación estándar de la muestra, a menos que se especifique lo contrario.

Desviación estándar poblacional de las calificaciones de ocho alumnos

Supóngase que toda la población estudiada son ocho alumnos determinados de una clase en particular. Para un conjunto discreto de datos, la desviación estándar de la población se determina calculando la raíz cuadrada de la media de las desviaciones de los valores restados de su valor promedio, elevadas al cuadrado. Las calificaciones de la clase de ocho estudiantes (es decir, de la población estadística completa) son los siguientes ocho valores:

 

Estos ocho datos tienen una media (promedio) de 5:

 

En primer lugar, se calculan las desviaciones de cada dato respecto a la media, y se eleva al cuadrado el resultado de cada una:

 

La varianza es la media de estos valores:

 

y la desviación estándar de la población es igual a la raíz cuadrada de la varianza:

 

Esta fórmula es válida solo si los ocho valores con los que se trabaja forman la población completa. Si los valores, en cambio, fueran una muestra aleatoria extraída de una gran población de alumnos (por ejemplo, fueron 8 calificaciones elegidas al azar e independientemente de un censo de 2 millones de alumnos), entonces el resultado se obtendría dividiendo por 7 (que es N − 1) en lugar de por 8 (que es N) en el denominador de la última fórmula. En ese caso, el resultado de la fórmula original se denominaría la desviación estándar de la muestra. Dividir por N - 1 en lugar de por N da una estimación imparcial de la varianza de una población más grande. Esta modificación se conoce como corrección de Bessel.[7]

Desviación estándar muestral de las edades de seis niños

Aquí se muestra cómo calcular la desviación estándar de un conjunto de datos. Los datos representan la edad de los miembros de un grupo de niños: {4, 1, 11, 13, 2, 7}

1. Calcular el promedio o media aritmética  

 

En este caso, n = 6:

 
 
 
 
 
       Sustituyendo n por 6:
 
 
 
 

2. Calcular la desviación estándar  

       Sustituyendo n por 6:
       Sustituyendo   por 6,33:
 
 
 
 
 
 
 

Desviación estándar de la estatura media de hombres adultos

Si la población estudiada tiene una distribución aproximadamente normal, la desviación estándar proporciona información sobre la proporción de las observaciones que se sitúan por encima o por debajo de ciertos valores. Por ejemplo, la estatura media de los hombres adultos en los Estados Unidos es de aproximadamente 177.8 cm, con una desviación estándar de alrededor de 7.62 cm. Esto significa que la mayoría de los hombres (alrededor del 68%, suponiendo un distribución normal) tienen una altura dentro de un intervalo de 7.62 cm alrededor de la media (entre 170.18 y 185.42 cm) y que casi todos los hombres (alrededor del 95%) tienen una altura dentro de los 15.24 cm alrededor de la media (entre 162.56 y 193.04 cm), un intervalo de dos desviaciones estándar de radio. Si la desviación estándar fuera cero, entonces todos los hombres tendrían una altura de exactamente 177.8 cm (el valor medio). Si la desviación estándar fuera de 50.8 cm, entonces los hombres tendrían alturas mucho más variables, con un rango típico de aproximadamente entre 127 y 228.6 cm. Un intervalo de tres desviaciones estándar de radio representa el 99.7% de la población de la muestra que se estudia, asumiendo que posee una distribución normal (en forma de campana). Consúltese la regla 68-95-99.7, o "regla empírica" ​​para obtener más información.

Definición de los valores de una población

Probabilidad

Sea X una variable aleatoria con valor medio:

 

Aquí el operador E denota el promedio o la esperanza matemática de X. Entonces la desviación estándar de X es la cantidad

 

(deducida utilizando las propiedades de la media).

En otras palabras, la desviación estándar σ (σ) es la raíz cuadrada de la varianza de X; es decir, es la raíz cuadrada del valor promedio de (X - μ)2.

La desviación estándar de una distribución de probabilidad (de una variable) es la misma que la de una variable aleatoria que tiene esa distribución. No todas las variables aleatorias tienen una desviación estándar, ya que estos valores no siempre existen necesariamente. Por ejemplo, la desviación estándar de una variable aleatoria que sigue una distribución de Cauchy no está definida, porque su valor esperado μ no está definido.

Variable aleatoria discreta

En el caso donde X toma valores aleatorios de un conjunto de datos finito x1, x2, ..., xN, con cada valor con la misma probabilidad, la desviación estándar es

 

o, usando la notación con un sumatorio,

 

Si, en lugar de poseer probabilidades iguales, los valores poseen probabilidades diferentes, entonces se tiene que x1 tiene la probabilidad p1, x2 tiene una probabilidad p2, ..., xN tiene una probabilidad pN. En este caso, la desviación estándar será

 

Variable aleatoria continua

La desviación estándar de una variable aleatoria continua real X con una función de densidad de probabilidad p(x) es

 

donde las integrales en x se extienden sobre el todo el conjunto de valores posibles de la variable aleatoria X.

En el caso de una familia paramétrica de distribuciones, la desviación estándar se puede expresar en términos de sus parámetros. Por ejemplo, en el caso de la distribución log-normal con los parámetros μ y σ2, la desviación estándar es

 

Desviación estándar de distribuciones de probabilidad conocidas

Distribución Parámetros Descripción Desviación típica
Distribución de Bernoulli[8]   Distribución discreta de valor 0 con probabilidad  ; y de valor   con probabilidad  .  
Distribución binomial[9]   y   Distribución de la suma de   variables independientes de acuerdo con la distribución de Bernoulli de parámetro  .  
Distribución geométrica[10]   Distribución discreta en  , tal que la probabilidad de obtener un número entero   es  .  
Distribución uniforme continua[11]   Distribución uniforme continua en  , cuya densidad es un múltiplo de la función indicadora de  .  
Distribución exponencial[11]   Distribución uniforme continua con soporte  , cuya densidad es la función  .  
Distribución de Poisson[12]   Distribución en  , cuya densidad es la función  , en la que  .  
Distribución χ² [13]   Distribución en  , cuya densidad es la función   para todo   positivo, en la que   es la función gamma.  
Distribución gamma[14]  ,   y   Distribución de probabilidad continua, cuya densidad es la función   para todo   positivo, en la que   es la función gamma.  

La desviación estándar de una distribución de probabilidad de una sola variable es igual a la desviación estándar de una variable aleatoria con la misma distribución. No todas las variables aleatorias tienen desviación estándar, ya que los valores esperados pueden no existir. Por ejemplo, la desviación estándar de una variable que sigue una distribución de Cauchy es indefinida, porque el valor de la media de la distribución es indefinida.[15]

Estimación

Es posible encontrarse con la desviación estándar de una población completa en casos donde se conoce el valor de todos y cada uno de los miembros de una población. En los casos en que esto no se puede hacer (en general, por tratarse con poblaciones muy grandes), la desviación estándar σ se estima examinando una muestra de la población tomada aleatoriamente, y calculando un tratamiento estadístico de la muestra dada, que se utiliza como una estimación de la desviación estándar de la población. Dicha estadística se denomina un estimador, y el estimador (o el valor del estimador, a saber, la estimación) se denomina desviación estándar de la muestra y se denota con s (posiblemente con modificadores). Sin embargo, a diferencia del caso de estimar la media poblacional, para la que la media muestral es un estimador simple con muchas propiedades deseables (sin sesgo, eficiente y con máxima probabilidad), no existe un estimador único para la desviación estándar con todas estas propiedades, y la estimación de la desviación estándar no sesgada es un problema con muchas implicaciones técnicas. La mayoría de las veces, la desviación estándar se calcula utilizando la desviación estándar de la muestra corregida (usando N - 1, definida a continuación), y que a menudo se conoce simplemente como la "desviación estándar de la muestra", sin calificadores. Sin embargo, otros estimadores son mejores en algunos aspectos: el estimador no corregido (que usa N) produce un error cuadrático medio más bajo, mientras que el uso de N − 1.5 (para una distribución normal) elimina el sesgo casi por completo.

Desviación estándar no corregida de una muestra

La fórmula para la desviación estándar de una población (de una población finita) se puede aplicar a la muestra, utilizando el tamaño de la muestra como el tamaño de la población (aunque el tamaño real de la población de la que se extrae la muestra sea mucho más grande). Este estimador, denotado por sN, se conoce como la desviación estándar de la muestra no corregida, o algunas veces como la desviación estándar de la muestra (considerada como la población total), y se define como sigue:

 

donde   son los valores observados de los elementos de la muestra y   es el valor medio de estas observaciones, mientras que el denominador N representa el tamaño de la muestra: esta es la raíz cuadrada de la varianza de la muestra, que es el promedio de las desviaciones al cuadrado respecto a la media muestral.

Este es un estimador consistente (porque converge en probabilidad al valor de la población cuando el número de muestras llega al infinito), y posee la máxima verosimilitud estimada cuando la población está normalmente distribuida.

Sin embargo, posee un sesgo estadístico, ya que el número de observaciones es generalmente demasiado bajo. El sesgo disminuye a medida que crece el tamaño de la muestra, disminuyendo como 1/N, y por lo tanto es más significativo para tamaños de muestra pequeños o moderados; para   el sesgo es inferior al 1 %. Por lo tanto, para tamaños de muestra muy grandes, la desviación estándar de la muestra no corregida es generalmente aceptable. Este estimador también tiene un error cuadrático medio uniformemente más pequeño que la desviación estándar corregida de la muestra.

Desviación estándar corregida de una muestra

Si la varianza sesgada (el segundo momento central de la muestra, que es una estimación sesgada hacia abajo de la varianza de la población) se utiliza para calcular una estimación de la desviación estándar de la población, el resultado es

 

Aquí, al tomar la raíz cuadrada se introduce un sesgo más hacia abajo, por la desigualdad de Jensen, debido a que la raíz cuadrada es una función cóncava. El sesgo en la varianza se corrige fácilmente, pero el sesgo de la raíz cuadrada es más difícil de corregir y depende de la distribución en cuestión.

Se obtiene un estimador no sesgado de la varianza aplicando la corrección de Bessel, usando N − 1 en lugar de N para obtener la varianza de la muestra no sesgada, denotada por s2:

 

Este estimador es insesgado si existe la varianza y los valores de la muestra se extraen independientemente con reemplazo (es decir, cada elemento de la muestra se devuelve a la población antes de elegir el siguiente elemento). N - 1 corresponde al número de grados de libertad del vector de desviaciones de la media,  

Al calcular la raíz cuadrada se reintroduce un sesgo (porque la raíz cuadrada es una función no lineal, que no posee la propiedad commutativa con respecto a la media), lo que produce la desviación estándar de la muestra corregida, denotada por s:

 

Como se explicó anteriormente, mientras que s2 es un estimador no sesgado de la varianza poblacional, s sigue siendo un estimador sesgado para la desviación estándar de la población, aunque es notablemente menos sesgado que la desviación estándar de la muestra no corregida. Este estimador se usa comúnmente y generalmente se conoce simplemente como la "desviación estándar de la muestra". El sesgo aún puede ser grande para muestras pequeñas (N menor de 10). A medida que aumenta el tamaño de la muestra, el valor del sesgo disminuye. A medida que se dispone de más información, la diferencia entre   y   se hace cada vez más pequeña.

Desviación estándar no sesgada de una muestra

Para la estimación de la desviación estándar no sesgada, no existe una fórmula que funcione en todas las distribuciones, a diferencia de lo que sucede con la media y con la varianza. En su lugar, s se usa como base y se escala según un factor de corrección para producir una estimación no sesgada. Por ejemplo, para la distribución normal, un estimador no sesgado viene dado por s/c4, donde el factor de corrección (que depende de N) se da en términos de la función gamma, y es igual a:

 

Esto se debe a que la distribución de la desviación estándar de la muestra sigue una distribución χ (escalada), y el factor de corrección es la media de la distribución χ.

Se puede dar una aproximación reemplazando N − 1 por N − 1.5, dando como resultado:

 

El error en esta aproximación decae de forma cuadrática (como 1/N2), y es adecuado para todas las muestras, excepto las más pequeñas o cuando se requiere una precisión máxima: para N = 3, el sesgo es igual al 1.3%, y para N = 9 el sesgo ya es menor del 0.1%.

Una aproximación más precisa es reemplazar el   anterior por  .[16]​ Para otras distribuciones, la fórmula correcta depende de la distribución, pero una regla de oro es usar el refinamiento adicional de la aproximación:

 

donde γ2 denota la curtosis de la población. El exceso de curtosis puede ser conocido de antemano para ciertas distribuciones, o estimado a partir de los datos.

Intervalo de confianza de la desviación estándar de una muestra

La desviación estándar que se obtiene de una muestra de una distribución no es del todo precisa, por razones matemáticas (de acuerdo con el intervalo de confianza) y por razones prácticas de medición (error de medición). El efecto matemático puede ser descrito por el intervalo de confianza o CI.

Para mostrar cómo una muestra más grande hace que el intervalo de confianza sea más estrecho, considérense los siguientes ejemplos:

Una pequeña población de N = 2 tiene solo 1 grado de libertad para estimar la desviación estándar. El resultado es que un IC del 95% de la desviación estándar se extiende desde 0.45 × s a 31.9 × s; los factores son aquí los siguientes:

 

donde   es el p-cuantil de la distribución χ² con k grados de libertad, y   es el nivel de confianza. Esto es equivalente a lo siguiente:

 

Con k=1,   y  . Los recíprocos de las raíces cuadradas de estos dos números proporcionan los factores 0.45 y 31.9 dados anteriormente.

Una población mayor de N = 10 tiene 9 grados de libertad para estimar la desviación estándar. Los mismos cálculos anteriores proporcionan en este caso un IC del 95%, que va desde 0.69 × SD a 1.83 × SD. Por lo tanto, incluso con una población de 10 muestras, la desviación estándar real puede ser casi dos veces mayor que la de la muestra. Para una población con una muestra de N = 100, esto se reduce a 0.88 × SD a 1.16 × s. Para estar más seguros de que la desviación estándar de la muestra queda cerca de la real, se necesita una muestra con un gran número de datos.

Estas mismas fórmulas se pueden usar para obtener intervalos de confianza con la varianza de los residuos de un ajuste por mínimos cuadrados según la teoría normal estándar, donde k sería el número de grados de libertad del error.

Identidades y propiedades matemáticas

La desviación estándar es invariante bajo los cambios del origen de coordenadas utilizado para la toma de los datos, y es directamente proporcional con respecto a la escala de la variable aleatoria. Por lo tanto, para una constante c y variables aleatorias X e Y:

 
 
 

La desviación estándar de la suma de dos variables aleatorias se puede relacionar con sus desviaciones estándar individuales y la covarianza entre ellas:

 

donde   y   representan la varianza y la covarianza respectivamente.

El cálculo de la suma de las desviaciones al cuadrado se puede relacionar con los momentos calculados directamente a partir de los datos. En la siguiente fórmula, la letra E se interpreta como el valor esperado, es decir, la media.

 

La desviación estándar de la muestra se puede calcular como:

 

Para una población finita con probabilidades iguales en todos los puntos, se tiene

 

Esto significa que la desviación estándar es igual a la raíz cuadrada de la diferencia entre el promedio de los cuadrados de los valores y el cuadrado del valor promedio.

Consúltese la fórmula de cálculo de la varianza para un resultado análogo con la desviación estándar de la muestra.

Interpretación y aplicación

 
Ejemplo de muestras de dos poblaciones con la misma media pero con desviaciones estándar diferentes. La población representada en rojo tiene media 100 y s 10; la azul tiene media 100 y s 50

Una gran desviación estándar indica que los puntos de datos pueden extenderse lejos de la media y una pequeña desviación estándar indica que están agrupados cerca de la media.

Por ejemplo, cada una de las tres poblaciones {0, 0, 14, 14}, {0, 6, 8, 14} y {6, 6, 8, 8} tiene una media de 7. Sus desviaciones estándar son 7, 5 y 1, Respectivamente. La tercera población tiene una desviación estándar mucho más pequeña que las otras dos porque sus valores son todos cercanos a 7. La desviación estándar posee las mismas unidades que los propios datos. Si, por ejemplo, el conjunto de datos {0, 6, 8, 14} representa las edades de una población de cuatro hermanos en años, la desviación estándar es de 5 años. Como otro ejemplo, la población {1000, 1006, 1008, 1014} puede representar las distancias recorridas por cuatro atletas, medidas en metros. Tiene una media de 1007 metros y una desviación estándar de 5 metros.

La desviación estándar puede servir como una medida de incertidumbre. En física, por ejemplo, la desviación estándar de un conjunto de mediciones sucesivas de una misma magnitud (como por ejemplo, de la velocidad de la luz), indica la precisión de esas mediciones. Al determinar si las mediciones concuerdan con una predicción teórica, la desviación estándar de esas mediciones es de crucial importancia: si la media de las mediciones está demasiado alejada de la predicción (con la esta distancia medida según la desviación estándar), entonces la teoría que se está probando probablemente necesita ser revisada. Esto tiene sentido, ya que se encuentran fuera del rango de valores que podrían esperarse razonablemente si la predicción fuera correcta y la desviación estándar se cuantificara adecuadamente (véase intervalo de predicción).

Si bien la desviación estándar determina en qué medida se alejan los datos de la media, hay otras medidas disponibles. Un ejemplo es la desviación media, que podría considerarse una medida más directa de la distancia promedio, en comparación con la raíz de las distancias al cuadrado inherente a la desviación estándar.

Interpretación gráfica

 
Visualización geométrica de la varianza de una distribución:
Imagen 1: Se construye la distribución de frecuencias.
Imagen 2: El centroide de la distribución proporciona la media.
Imagen 3: Se construye para cada valor un cuadrado cuyo lado es igual a la diferencia de cada valor respecto a la media.
Imagen 4: Se reorganizan los cuadrados en un rectángulo con un lado igual al número   de valores, resultando el otro lado igual a la varianza de la distribución  .

Para un conjunto de datos finito, la desviación estándar se calcula a partir de la raíz cuadrada de la media de las desviaciones entre los valores y el promedio de los valores de los datos elevado al cuadrado.[17]

A continuación, se incluye el desarrollo numérico del ejemplo gráfico mostrado en la ilustración de la derecha:

Sean las notas de 8 estudiantes ( ) 2, 4, 4, 4, 5, 5, 7, 9. La media de las notas de los 8 estudiantes es:

 .

Las desviaciones entre las notas y la media de las notas elevadas al cuadrado son:

 

La varianza o el promedio de todos los valores es:

 .

La desviación estándar o la raíz cuadrada de la varianza es  . Esto es, la desviación estándar es igual a 2.[17]

Interpretación geométrica

Para obtener algunas ideas y aclaraciones geométricas, se plantea una población con tres valores, x1, x2 y x3. Esto define un punto P = (x1, x2, x3) en R3. Considérese la recta L = {(r, r, r): rR}. Esta es la "diagonal principal" pasando por el origen. Si los tres valores dados fueran todos iguales, entonces la desviación estándar sería cero y P estaría en L. Por lo tanto, es lógico suponer que la desviación estándar está relacionada con la distancia de P con respecto a L. Ese es de hecho el caso. Para desplazarse ortogonalmente desde L hasta el punto P, se comienza en el punto:

 

cuyas coordenadas son la media de los valores de partida.

Demostración

Sea  .   está en  , por lo tanto,   con  

La línea   debe ser ortogonal al vector de   a  . Por lo tanto:

 

Mediante un poco de álgebra, se demuestra que la distancia entre P y M (que es la misma que la distancia ortogonal entre P y la recta L)   es igual a la desviación estándar del vector (x1, x2, x3), multiplicado por la raíz cuadrada del número de dimensiones del vector (3 en este caso).

Ejemplos de aplicación

El valor práctico de comprender la desviación estándar de un conjunto de valores reside en apreciar su grado de variación con respecto a la media.

Experimentos, pruebas industriales y de hipótesis

La desviación estándar a menudo se usa para comparar datos del mundo real con un modelo para probar el modelo. Por ejemplo, en aplicaciones industriales, el peso de los productos que salen de una línea de producción puede necesitar cumplir con un valor legalmente requerido. Al pesar alguna fracción de los productos, se puede determinar un peso promedio, que siempre será ligeramente diferente al promedio a largo plazo. Al utilizar la desviación estándar, se puede calcular un valor mínimo y máximo tales que el peso promedio estará dentro en un porcentaje muy alto de las ocasiones (un 99.9% o más). Si cae fuera del rango, es posible que el proceso de producción deba corregirse. Pruebas estadísticas como estas son particularmente importantes cuando la obtención de medidas es relativamente cara. Por ejemplo, si el producto necesita ser abierto y drenado para pesarse, o si el producto es alterado por la prueba.

En la ciencia experimental, se utiliza un modelo teórico de la realidad. Por ejemplo, la física de partículas usa convencionalmente un estándar de "5 sigma" para la declaración de un descubrimiento.[18]​ Un nivel de cinco sigma se traduce en una posibilidad entre 3.5 millones de que una fluctuación aleatoria produzca el resultado predicho. Este nivel de certeza era necesario para afirmar que se había descubierto una partícula consistente con el bosón de Higgs en dos experimentos independientes realizados por la Organización Europea para la Investigación Nuclear,[19]​ y este fue también el nivel de relevancia que llevó a la declaración de la detección de ondas gravitacionales por primera vez.[20]

Meteorología

Como ejemplo simple, considérense las temperaturas máximas promedio diarias de dos ciudades, una interior y otra en la costa. Es útil comprender que el rango de temperaturas máximas diarias para las ciudades cercanas a la costa es menor que para las ciudades del interior. Por lo tanto, si bien estas dos ciudades pueden tener la misma temperatura máxima promedio, la desviación estándar de la temperatura máxima diaria para la ciudad costera será menor que la de la ciudad interior, ya que, en cualquier día en particular, la temperatura máxima real es más probable que se sitúe más lejos de la temperatura máxima promedio en la ciudad interior que en la costera.

Finanzas

En finanzas, la desviación estándar se usa a menudo como una medida del riesgo asociado con las fluctuaciones de precio de un activo determinado (acciones, bonos, propiedad, etc.), o con el riesgo de una cartera de activos[21]​ (fondos mutuos administrados activamente, índice mutuo de fondos, o fondos cotizados). El riesgo es un factor importante para determinar cómo administrar de manera eficiente una cartera de inversiones porque determina la variación en los rendimientos del activo y/o la cartera y brinda a los inversores una base matemática para tomar decisiones de inversión (según una disciplina conocida como teoría moderna de carteras). El concepto fundamental de riesgo es que a medida que aumenta, el rendimiento esperado de una inversión también debería aumentar, según un aumento conocido como la prima de riesgo. En otras palabras, los inversores deben esperar un mayor rendimiento de una inversión cuando esa inversión conlleva un mayor nivel de riesgo o incertidumbre. Al evaluar las inversiones, los inversores deben estimar tanto el rendimiento esperado como la incertidumbre de los rendimientos futuros. La desviación estándar proporciona una estimación cuantificada de la incertidumbre de los rendimientos futuros.

Por ejemplo, supongase que un inversor tiene que elegir entre dos acciones. Las acciones A en los últimos 20 años tuvieron un rendimiento promedio del 10 por ciento, con una desviación estándar de 20 puntos porcentuales (pp) y las acciones B, durante el mismo período, tuvieron rendimientos promedio del 12 por ciento, pero una desviación estándar más alta de 30 pp. Como base del riesgo y la rentabilidad, un inversor puede decidir que la acción A es la opción más segura, ya que los dos puntos porcentuales adicionales de la acción B no valen la desviación estándar adicional de 10 pp (mayor riesgo o incertidumbre de la rentabilidad esperada). Es probable que las acciones B no alcancen la inversión inicial (pero también que excedan la inversión inicial) con mayor frecuencia que las acciones A en las mismas circunstancias, y se estima que en promedio solo retornarán un dos por ciento más. En este ejemplo, se espera que la acción A gane alrededor del 10 por ciento, más o menos 20 pp (un rango del 30 por ciento al -10 por ciento), aproximadamente dos tercios de los rendimientos del año futuro. Al considerar rendimientos o resultados más extremos en el futuro, un inversor debe esperar resultados de hasta un 10 por ciento más o menos 60 pp, o un rango del 70 por ciento al 50 por ciento, que incluye los resultados en un rango de tres desviaciones estándar del rendimiento promedio (alrededor del 99.7 por ciento de los rendimientos probables).

El cálculo del promedio (o media aritmética) del rendimiento de un valor en un período determinado generará el rendimiento esperado del activo. Para cada período, se resta el rendimiento esperado de los resultados reales con respecto de la media. Al elevar al cuadrado la diferencia en cada período y tomar el promedio, se obtiene la varianza general del rendimiento del activo. Cuanto mayor sea la variación, mayor será el riesgo que conlleva. Calculando la raíz cuadrada de esta variación se obtiene la desviación estándar de la herramienta de inversión en cuestión.

La desviación estándar de la población se usa para establecer el ancho de las bandas de Bollinger, una herramienta de análisis técnico ampliamente utilizada. Por ejemplo, la banda superior de Bollinger se da como x + x.. El valor más comúnmente usado para n es 2; hay un cinco por ciento de posibilidades de obtener un valor por fuera de la banda, asumiendo una distribución normal de los rendimientos.

Se sabe que las series temporales financieras son series no estacionarias, mientras que los cálculos estadísticos anteriores, como la desviación estándar, se aplican solo a las series estacionarias. Para aplicar las herramientas estadísticas anteriores a las series no estacionarias, la serie primero debe transformarse en una serie estacionaria, permitiendo el uso de herramientas estadísticas con una base válida desde la que poder trabajar en términos homogéneos.

Reglas para datos con una distribución normal

 
El color azul oscuro representa el intervalo de la desviación estándar a ambos lados de la media. Para la distribución normal, esto representa el 68.27 por ciento del conjunto; mientras que dos desviaciones estándar de la media (azul medio y oscuro) representan 95.45 por ciento; tres desviaciones estándar (azul claro, medio y oscuro) representan el 99.73 por ciento; y cuatro desviaciones estándar representan el 99.994 por ciento. Los dos puntos de la curva situados a una desviación estándar de la media son también los puntos de inflexión de la gráfica.

Teorema del límite central

El teorema del límite central establece que la distribución de un promedio de muchas variables aleatorias independientes e idénticamente distribuidas tiende hacia la famosa distribución normal en forma de campana con una función de densidad de probabilidad de

 

donde μ es la esperanza matemática de las variables aleatorias, σ equivale a la desviación estándar de su distribución dividida por n1/2, y n es el número de variables aleatorias. Por lo tanto, la desviación estándar es simplemente una variable de escala que ajusta la amplitud de la curva, aunque también aparece en la constante de normalización.

Si una distribución de datos es aproximadamente normal, entonces la proporción de valores de datos dentro de z desviaciones estándar de la media, se define por:

 

donde   es la función error. La proporción que es menor o igual a un número, x, viene dada por la función de distribución:[22]

 

Si una distribución de datos es aproximadamente normal, cerca del 68 por ciento de los valores de los datos estarán dentro de una desviación estándar de la media (matemáticamente, μ ± σ, donde μ es la media aritmética), del orden del 95 por ciento estarán dentro de dos desviaciones estándar, y en torno a un 99.7 por ciento estarán dentro de tres desviaciones estándar (3σ ). Esto se conoce como la regla 68-95-99.7, o la regla empírica.

Para varios valores de z, el porcentaje de valores que se espera que se encuentren dentro y fuera del intervalo simétrico, CI = (-), son los siguientes:

 
Porcentaje dentro de (z)
 
z para el porcentaje abarcado
Intervalo
de Confianza
Proporción dentro Proporción fuera
Porcentaje Porcentaje Fracción
0.318 639 σ 25 % 75 % 3 / 4
0,674490 σ 50 % 50 % 1 / 2
0,994458 σ 68 % 32 % 1 / 3,125
1 σ 68,2689492 % 31,7310508 % 1 / 3,1514872
1,281552 σ 80 % 20 % 1 / 5
1,644854 σ 90 % 10 % 1 / 10
1,959964 σ 95 % 5 % 1 / 20
2 σ 95,4499736 % 4,5500264 % 1 / 21,977895
2,575829 σ 99 % 1 % 1 / 100
3 σ 99,7300204 % 0,2699796 % 1 / 370,398
3,290527 σ 99,9 % 0,1 % 1 / 1000
3,890592 σ 99,99 % 0,01 % 1 / 10 000
4 σ 99,993666 % 0,006334 % 1 / 15 787
4,417173 σ 99,999 % 0,001 % 1 / 100 000
4.5 σ 99,9993204653751 % 0,0006795346249 % 3.4 / 1 000 000
(a cada lado de la media)
4,891638 σ 99,9999 % 0,0001 % 1 / 1 000 000
5 σ 99,9999426697 % 0,0000573303 % 1 / 1 744 278
5,326724 σ 99,99999 % 0,00001 % 1 / 10 000 000
5,730729 σ 99,999999 % 0,000001 % 1 / 100 000 000
6 σ 99,9999998027 % 0,0000001973 % 1 / 506 797 346
6,109410 σ 99,9999999 % 0,0000001 % 1 / 1 000 000 000
6,466951 σ 99,99999999 % 0,00000001 % 1 / 10 000 000 000
6,806502 σ 99,999999999 % 0,000000001 % 1 / 100 000 000 000
7 σ 99,9999999997440 % 0,000000000256 % 1 / 390 682 215 445

Desigualdad de Chebyshov

 
Regiones de probabilidad de los intervalos de la desigualdad de Chebyshov en una distribución simétrica

Una observación cualquiera rara vez se sitúa a más de unas pocas desviaciones estándar de la media. La desigualdad de Chebyshov garantiza que, para todas las distribuciones para las que se define la desviación estándar, la cantidad de datos dentro de una serie de desviaciones estándar de la media es al menos la que se indica en la siguiente tabla.

Distancia respecto a la media Población mínima abarcada
  50%
2σ 75%
3σ 89%
4σ 94%
5σ 96%
6σ 97%
   [23]
   

Relación entre la desviación estándar y la media

En estadística descriptiva, la media y la desviación estándar de un conjunto de datos son generalmente facilitadas juntas. En cierto sentido, la desviación estándar es una medida "natural" de las medidas de dispersión si el centro de los datos se mide alrededor de la media. Esto se debe a que la desviación estándar respecto a la media es menor que desde cualquier otro punto. La declaración precisa es la siguiente:

Supóngase que x1, ..., xn son números reales y se define la función:

 

Usando el cálculo infinitesimal o completando el cuadrado, es posible demostrar que σ(r) tiene un mínimo único en la media:

 

La variabilidad también puede medirse mediante el coeficiente de variación, que es la relación de la desviación estándar con respecto a la media. Es una magnitud adimensional.

Desviación estándar de la media

A menudo, se requiere información sobre la precisión de la media obtenida. Este parámetro se puede obtener determinando la desviación estándar de la media de la muestra. Suponiendo una independencia estadística de los valores de la muestra, la desviación estándar de la media está relacionada con la desviación estándar de la distribución por:

 

donde N es el número de observaciones de la muestra utilizada para estimar la media. Esto se puede probar fácilmente con (véanse las propiedades básicas de la varianza):

 

(se supone la independencia estadística de los datos).

 

por lo tanto

 

De aquí se deduce que:

 

Se debe enfatizar que para estimar la desviación estándar de la media   es necesario conocer de antemano la desviación estándar de toda la población  . Sin embargo, en la mayoría de las aplicaciones este parámetro es desconocido. Por ejemplo, si se realiza una serie de 10 mediciones de una cantidad previamente desconocida en un laboratorio, es posible calcular la media de la muestra resultante y la desviación estándar de la muestra, pero es imposible calcular la desviación estándar de la media.

Métodos de cálculo rápido

Las dos fórmulas siguientes permiten calcular una desviación estándar agregando datos. Un conjunto de dos sumas de potencias s1 y s2 se calculan sobre un conjunto de N valores de x, denotado como x1, ... , xN:

 

Dados los resultados de estas sumas en ejecución, los valores N, s1, s2 se pueden usar en cualquier momento para calcular el valor actual de la desviación estándar de ejecución:

 

Donde N, como se mencionó anteriormente, es el tamaño del conjunto de valores (o también puede considerarse como s0).

Del mismo modo, para la desviación estándar de la muestra,

 

En un programa de ordenador, a medida que las sumas de tres sj se hacen grandes, se debe considerar el error de redondeo y el desbordamiento aritmético (por rebosamiento de grandes cantidades o por la pérdida de la mantisa). El siguiente método calcula el método de las sumas con errores de redondeo reducidos.[24]​ Se trata de un algoritmo de "una pasada" para calcular la varianza de n muestras sin la necesidad de almacenar los datos anteriores durante el cálculo. La aplicación de este método a una serie devuelve valores sucesivos de la desviación estándar correspondiente a n datos a medida que n crece con cada nueva muestra, en lugar de un cálculo que requiera analizar en su totalidad el nuevo conjunto de datos.

Para k = 1, ..., n:

 

donde A es el valor medio.

 

Nota:   desde   o  

Varianza de la muestra:

 

Varianza de la población:

 

Cálculo ponderado

Cuando los valores xi se ponderan con pesos desiguales wi, las sumas de potencias s0, s1, s2 se computan como:

 

y las ecuaciones de la desviación estándar se mantienen sin cambios. Téngase en cuenta que s0 es ahora la suma de los pesos y no el número de muestras N.

El método incremental con errores de redondeo reducidos también se puede aplicar, con cierta complejidad adicional.

Se debe calcular una suma de pesos para cada k desde 1 hasta n:

 

y los lugares donde se usa 1/n anteriormente deben reemplazarse por wi/Wn:

 

En la división final,

 

y

 

o

 

donde n es el número total de elementos, y n' es el número de elementos con ponderaciones distintas de cero. Las fórmulas anteriores se hacen iguales a las fórmulas más simples dadas arriba si los pesos se toman como iguales a uno.

Historia

El término desviación estándar fue utilizado por primera vez en un escrito por Karl Pearson,[25]​ en una comunicación a la Royal Society[26]​ de 1894, aunque ya lo había utilizado en sus clases. Esta denominación sustituyó a otros nombres anteriores de la misma idea: por ejemplo, Gauss usó la expresión error medio.[27]

Véase también

Referencias

  1. Bland, J.M.; Altman, D.G. (1996). «Statistics notes: measurement error». BMJ 312 (7047): 1654. PMC 2351401. PMID 8664723. doi:10.1136/bmj.312.7047.1654. 
  2. UPTC. Desviación típica. Fórmulas
  3. Gauss, Carl Friedrich (1816). «Bestimmung der Genauigkeit der Beobachtungen». Zeitschrift für Astronomie und verwandte Wissenschaften 1: 187-197. 
  4. Walker, Helen (1931). Studies in the History of the Statistical Method. Baltimore, MD: Williams & Wilkins Co. pp. 24-25. 
  5. Logan, Murray (2010), Biostatistical Design and Analysis Using R (First edición), Wiley-Blackwell .
  6. Furness, R.W.; Bryant, D.M. (1996). «Efecto del viento en la tasa metabólica de los petreles del norte». Ecology 77: 1181-1188. doi:10.2307/2265587. 
  7. Weisstein, Eric W. «Bessel's Correction». En Weisstein, Eric W, ed. MathWorld (en inglés). Wolfram Research. 
  8. Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. París: Éditions Technip. p. 30 de 662. 
  9. Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. París: Éditions Technip. p. 31 de 622. 
  10. Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. París: Éditions Technip. p. 38 de 622. 
  11. Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. París: Éditions Technip. p. 39 de 622. 
  12. Saporta, Gilbert (2006). Probabilités – Analyse des données et Statistiques. París: Éditions Technip. p. 33 de 622. 
  13. Dodge, Yadolah (2010). The Concise Encyclopaedia of Statistics. New York: Springer. p. 71 de 622. 
  14. Dodge, Yadolah (2010). The Concise Encyclopaedia of Statistics. New York: Springer. p. 71 de 622. 
  15. Dodge, Yadolah (2010). The Concise Encyclopaedia of Statistics. New York: Springer. p. 60 de 622. 
  16. John Gurland and Ram C. Tripathi (1971), «A Simple Approximation for Unbiased Estimation of the Standard Deviation», The American Statistician 25 (4): 30-32, doi:10.2307/2682923 .
  17. Martins, Maria Eugénia Graça. «Desvio Padrão Amostral». Revista de Ciência Elementar 1 (1). Consultado el 6 de febrero de 2017. 
  18. «CERN | Accelerating science». Public.web.cern.ch. Consultado el 10 de agosto de 2013. 
  19. «CERN experiments observe particle consistent with long-sought Higgs boson | CERN press office». Press.web.cern.ch. 4 de julio de 2012. Consultado el 30 de mayo de 2015. 
  20. ((LIGO Scientific Collaboration)), ((Virgo Collaboration)) (2016), «Observation of Gravitational Waves from a Binary Black Hole Merger», Physical Review Letters 116 (6): 061102, Bibcode:2016PhRvL.116f1102A, PMID 26918975, arXiv:1602.03837, doi:10.1103/PhysRevLett.116.061102 .
  21. «What is Standard Deviation». Pristine. Consultado el 29 de octubre de 2011. 
  22. Eric W. Weisstein. «Distribution Function». MathWorld—A Wolfram Web Resource. Consultado el 30 de septiembre de 2014. 
  23. Ghahramani, Saeed (2000). Fundamentals of Probability (2nd Edition). Prentice Hall: New Jersey. p. 438.
  24. Welford, BP (August 1962). . Technometrics 4 (3): 419-420. doi:10.1080/00401706.1962.10490022. Archivado desde el original el 2 de febrero de 2017. Consultado el 1 de diciembre de 2018. 
  25. Dodge, Yadolah (2003). The Oxford Dictionary of Statistical Terms. Oxford University Press. ISBN 0-19-920613-9. 
  26. Pearson, Karl (1894). «On the dissection of asymmetrical frequency curves». Philosophical Transactions of the Royal Society A 185: 71-110. Bibcode:1894RSPTA.185...71P. doi:10.1098/rsta.1894.0003. 
  27. Miller, Jeff. «Earliest Known Uses of Some of the Words of Mathematics». 

Enlaces externos

  •   Wikimedia Commons alberga una galería multimedia sobre Desviación típica.
  • Simulación de la desviación típica de una variable discreta con R (lenguaje de programación)
  • Hazewinkel, Michiel, ed. (2001), «Quadratic deviation», Encyclopaedia of Mathematics (en inglés), Springer, ISBN 978-1556080104 .
  • A simple way to understand Standard Deviation
  • Standard Deviation – an explanation without maths
  • The concept of Standard Deviation is shown in this 8 pies (2,4 m) Probability Machine (named Sir Francis) comparing stock market returns to the randomness of the beans dropping through the quincunx pattern. en YouTube. from Index Funds Advisors IFA.com
  •   Datos: Q159375
  •   Multimedia: Standard deviation

desviación, típica, estadística, desviación, típica, también, conocida, como, desviación, estándar, desvío, típico, representada, manera, abreviada, letra, griega, minúscula, sigma, letra, latina, así, como, siglas, standard, deviation, algunos, textos, traduc. En estadistica la desviacion tipica tambien conocida como desviacion estandar y desvio tipico y representada de manera abreviada por la letra griega minuscula sigma s o la letra latina s asi como por las siglas SD de standard deviation en algunos textos traducidos del ingles es una medida que se utiliza para cuantificar la variacion o la dispersion de un conjunto de datos numericos 1 Una grafica de la distribucion normal o curva en forma de campana o curva de Gauss donde cada banda tiene un ancho de una vez la desviacion estandar vease tambien regla 68 95 99 7 Probabilidad acumulada de una distribucion normal con valor esperado 0 y desviacion estandar 1 Una desviacion estandar baja indica que la mayor parte de los datos de una muestra tienden a estar agrupados cerca de su media tambien denominada el valor esperado mientras que una desviacion estandar alta indica que los datos se extienden sobre un rango de valores mas amplio Indice 1 Consideraciones generales 2 Ejemplos basicos 2 1 Desviacion estandar muestral de la tasa metabolica de los petreles 2 2 Desviacion estandar poblacional de las calificaciones de ocho alumnos 2 3 Desviacion estandar muestral de las edades de seis ninos 2 4 Desviacion estandar de la estatura media de hombres adultos 3 Definicion de los valores de una poblacion 3 1 Probabilidad 3 2 Variable aleatoria discreta 3 3 Variable aleatoria continua 3 3 1 Desviacion estandar de distribuciones de probabilidad conocidas 4 Estimacion 4 1 Desviacion estandar no corregida de una muestra 4 2 Desviacion estandar corregida de una muestra 4 3 Desviacion estandar no sesgada de una muestra 4 4 Intervalo de confianza de la desviacion estandar de una muestra 5 Identidades y propiedades matematicas 6 Interpretacion y aplicacion 6 1 Interpretacion grafica 6 2 Interpretacion geometrica 6 3 Ejemplos de aplicacion 6 3 1 Experimentos pruebas industriales y de hipotesis 6 3 2 Meteorologia 6 3 3 Finanzas 7 Reglas para datos con una distribucion normal 7 1 Teorema del limite central 7 2 Desigualdad de Chebyshov 8 Relacion entre la desviacion estandar y la media 8 1 Desviacion estandar de la media 9 Metodos de calculo rapido 9 1 Calculo ponderado 10 Historia 11 Vease tambien 12 Referencias 13 Enlaces externosConsideraciones generales EditarFormulas fundamentalesVariable aleatoria discreta 2 m 1 N i 1 N x i displaystyle mu frac 1 N sum i 1 N x i Media aritmetica s 1 N i 1 N x i m 2 displaystyle sigma sqrt frac 1 N sum i 1 N x i mu 2 Poblacion completa s 1 N 1 i 1 N x i m 2 displaystyle s sqrt frac 1 N 1 sum i 1 N x i mu 2 Muestra de una poblacion Expresiones equivalentes s 1 N i 1 N x i 2 N m 2 displaystyle sigma sqrt frac 1 N left sum i 1 N x i 2 N mu 2 right Poblacion completa s 1 N 1 i 1 N x i 2 N m 2 displaystyle s sqrt frac 1 N 1 left sum i 1 N x i 2 N mu 2 right Muestra de una poblacion Variable aleatoria continua s X x m 2 p x d x d o n d e m X x p x d x displaystyle sigma sqrt int mathbf X x mu 2 p x rm d x rm donde mu int mathbf X x p x rm d x La desviacion estandar de una variable aleatoria poblacion estadistica conjunto de datos o distribucion de probabilidad es la raiz cuadrada de su varianza Es algebraicamente mas simple aunque en la practica menos robusta que la desviacion media 3 4 Una propiedad util de la desviacion estandar es que a diferencia de la varianza se expresa en las mismas unidades que los datos a partir de los que se calcula Ademas de expresar la variabilidad de una poblacion la desviacion estandar se usa comunmente para medir la fiabilidad de las conclusiones estadisticas Por ejemplo el margen de error en los datos de los sondeos de opinion se determina calculando la desviacion estandar esperada en los resultados si la misma encuesta se llevara a cabo varias veces Esta interpretacion de la desviacion estandar a menudo se denomina error estandar de la estimacion o error estandar de la media cuando se refiere a una media Se calcula como la desviacion estandar de todas las medias que se calcularian a partir de esa poblacion si se extrajera un numero infinito de muestras y se calculase la media para cada muestra Es muy importante tener en cuenta que la desviacion estandar de una poblacion y el error estandar de una estadistica obtenida a partir de esa poblacion como la media son bastante diferentes pero estan relacionados relacionados por la inversa de la raiz cuadrada del numero de observaciones El margen de error de una encuesta se calcula a partir del error estandar de la media o alternativamente del producto de la desviacion estandar de la poblacion y la inversa de la raiz cuadrada del tamano de la muestra que es lo mismo y es por lo general aproximadamente el doble de la desviacion estandar la mitad del ancho de un intervalo de confianza del 95 por ciento En ciencia muchos investigadores analizan la desviacion estandar de los datos experimentales y solo los efectos que se alejan mucho mas de dos desviaciones estandar de lo que seria esperable se consideran estadisticamente significativos el error aleatorio normal o la variacion en las mediciones se distinguen de esta manera de los efectos genuinos o asociaciones probables En finanzas tambien es un indicador importante puesto que la desviacion estandar de la tasa de retorno de una inversion da una medida de su volatilidad Cuando solo esta disponible una muestra de datos de una poblacion el termino desviacion estandar de la muestra o desviacion estandar muestral puede referirse a la cantidad mencionada anteriormente aplicada a esos datos o tambien a una cantidad sobre la que se realiza un ajuste que sirve de estimacion no sesgada de la desviacion estandar de la poblacion es decir de la desviacion estandar de toda la poblacion Ejemplos basicos EditarDesviacion estandar muestral de la tasa metabolica de los petreles Editar El libro de Murray Logan Biostatistical Design and Analysis Using R da el ejemplo siguiente 5 Los naturalistas Furness y Bryant 6 midieron la tasa metabolica en reposo de 8 petreles reproductivos y de 6 hembras La tabla muestra el conjunto de datos obtenidos por Furness Datos obtenidos por Furness de la tasa metabolica de los petreles del norte Sexo Tasa metabolica Sexo Tasa metabolicaMacho 525 8 Hembra 727 7Macho 605 7 Hembra 1086 5Macho 843 3 Hembra 1091 0Macho 1195 5 Hembra 1361 3Macho 1945 6 Hembra 1490 5Macho 2135 6 Hembra 1956 1Macho 2308 7Macho 2950 0La grafica muestra la tasa metabolica para machos y hembras Por simple inspeccion visual parece que la variabilidad de la tasa metabolica es mayor para los machos que para las hembras La desviacion estandar de la muestra de la tasa metabolica para las hembras de petrel se calcula como se explica a continuacion La formula para calcular la desviacion estandar de la muestra es s i 1 N x i x 2 N 1 displaystyle s sqrt frac sum i 1 N x i overline x 2 N 1 donde x 1 x 2 x N displaystyle textstyle x 1 x 2 ldots x N son los valores observados de los elementos de la muestra x displaystyle textstyle overline x es el valor medio de estas observaciones y N es el numero de observaciones de la muestra En la formula de la desviacion estandar de la muestra para este ejemplo el numerador es la suma de las desviaciones al cuadrado de la tasa metabolica de cada animal respecto a la tasa metabolica media La siguiente tabla muestra el calculo de esta suma de desviaciones al cuadrado para los petreles hembra cuya suma es de 886047 09 como se muestra en la tabla Calculo de la suma de cuadrados para las hembras de petrel Animal Sexo Tasa metabolica Media Diferencia con la media Diferencia con la media al cuadrado1 Hembra 727 7 1285 5 557 8 311140 842 Hembra 1086 5 1285 5 199 0 39601 003 Hembra 1091 0 1285 5 194 5 37830 254 Hembra 1361 3 1285 5 75 8 5745 645 Hembra 1490 5 1285 5 205 0 42025 006 Hembra 1956 1 1285 5 670 6 449704 36Media de las tasas metabolicas 1285 5 Suma de las diferencias al cuadrado 886047 09El denominador en la formula de la desviacion estandar de la muestra es N 1 donde N es el numero de hembras En este ejemplo hay N 6 hembras por lo que el denominador es 6 1 5 Por lo tanto la desviacion estandar de la muestra para los petreles hembra es s i 1 N x i x 2 N 1 886047 09 5 420 96 displaystyle s sqrt frac sum i 1 N x i overline x 2 N 1 sqrt frac 886047 09 5 420 96 Para los petreles macho un calculo similar proporciona una muestra de desviacion estandar de 894 37 aproximadamente el doble que la desviacion estandar para las hembras La grafica muestra los datos de la tasa metabolica las medias puntos rojos y las desviaciones estandar lineas rojas para machos y hembras El uso de la desviacion estandar de la muestra implica que estos 14 petreles son una muestra de una poblacion mayor Si estos 14 petreles comprendieran toda la poblacion si fueran los ultimos 14 petreles sobrevivientes entonces se podria hablar de la desviacion estandar de la poblacion en lugar de la desviacion estandar de la muestra En la formula de la desviacion estandar de la poblacion el denominador es N en lugar de N 1 No siempre es posible tomar medidas de una poblacion completa por lo que de manera predeterminada las aplicaciones informaticas de estadistica suelen calcular la desviacion estandar de la muestra es decir dividiendo por N 1 De manera similar los articulos de revistas se refieren a la desviacion estandar de la muestra a menos que se especifique lo contrario Desviacion estandar poblacional de las calificaciones de ocho alumnos Editar Supongase que toda la poblacion estudiada son ocho alumnos determinados de una clase en particular Para un conjunto discreto de datos la desviacion estandar de la poblacion se determina calculando la raiz cuadrada de la media de las desviaciones de los valores restados de su valor promedio elevadas al cuadrado Las calificaciones de la clase de ocho estudiantes es decir de la poblacion estadistica completa son los siguientes ocho valores 2 4 4 4 5 5 7 9 displaystyle 2 4 4 4 5 5 7 9 Estos ocho datos tienen una media promedio de 5 m 2 4 4 4 5 5 7 9 8 5 displaystyle mu frac 2 4 4 4 5 5 7 9 8 5 En primer lugar se calculan las desviaciones de cada dato respecto a la media y se eleva al cuadrado el resultado de cada una 2 5 2 3 2 9 5 5 2 0 2 0 4 5 2 1 2 1 5 5 2 0 2 0 4 5 2 1 2 1 7 5 2 2 2 4 4 5 2 1 2 1 9 5 2 4 2 16 displaystyle begin array lll 2 5 2 3 2 9 amp amp 5 5 2 0 2 0 4 5 2 1 2 1 amp amp 5 5 2 0 2 0 4 5 2 1 2 1 amp amp 7 5 2 2 2 4 4 5 2 1 2 1 amp amp 9 5 2 4 2 16 end array La varianza es la media de estos valores s 2 9 1 1 1 0 0 4 16 8 4 displaystyle sigma 2 frac 9 1 1 1 0 0 4 16 8 4 y la desviacion estandar de la poblacion es igual a la raiz cuadrada de la varianza s 4 2 displaystyle sigma sqrt 4 2 Esta formula es valida solo si los ocho valores con los que se trabaja forman la poblacion completa Si los valores en cambio fueran una muestra aleatoria extraida de una gran poblacion de alumnos por ejemplo fueron 8 calificaciones elegidas al azar e independientemente de un censo de 2 millones de alumnos entonces el resultado se obtendria dividiendo por 7 que es N 1 en lugar de por 8 que es N en el denominador de la ultima formula En ese caso el resultado de la formula original se denominaria la desviacion estandar de la muestra Dividir por N 1 en lugar de por N da una estimacion imparcial de la varianza de una poblacion mas grande Esta modificacion se conoce como correccion de Bessel 7 Desviacion estandar muestral de las edades de seis ninos Editar Aqui se muestra como calcular la desviacion estandar de un conjunto de datos Los datos representan la edad de los miembros de un grupo de ninos 4 1 11 13 2 7 1 Calcular el promedio o media aritmetica x displaystyle overline x x 1 n i 1 n x i displaystyle overline x frac 1 n sum i 1 n x i En este caso n 6 x 1 4 displaystyle x 1 4 x 2 1 displaystyle x 2 1 x 3 11 displaystyle x 3 11 x 4 13 displaystyle x 4 13 x 5 2 displaystyle x 5 2 x 6 7 displaystyle x 6 7 Sustituyendo n por 6 x 1 6 i 1 6 x i displaystyle overline x frac 1 6 sum i 1 6 x i x 1 6 x 1 x 2 x 3 x 4 x 5 x 6 displaystyle overline x frac 1 6 left x 1 x 2 x 3 x 4 x 5 x 6 right x 1 6 4 1 11 13 2 7 displaystyle overline x frac 1 6 left 4 1 11 13 2 7 right x 6 33 displaystyle overline x 6 33 2 Calcular la desviacion estandar s displaystyle s s 1 n 1 i 1 n x i x 2 displaystyle s sqrt frac 1 n 1 sum i 1 n x i overline x 2 Sustituyendo n por 6 s 1 5 i 1 6 x i x 2 displaystyle s sqrt frac 1 5 sum i 1 6 x i overline x 2 Sustituyendo x displaystyle overline x por 6 33 s 1 5 i 1 6 x i 6 33 2 displaystyle s sqrt frac 1 5 sum i 1 6 x i 6 33 2 s 1 5 4 6 33 2 1 6 33 2 11 6 33 2 13 6 33 2 2 6 33 2 7 6 33 2 displaystyle s sqrt frac 1 5 left 4 6 33 2 1 6 33 2 11 6 33 2 13 6 33 2 2 6 33 2 7 6 33 2 right s 1 5 2 33 2 5 33 2 4 67 2 6 67 2 4 33 2 0 67 2 displaystyle s sqrt frac 1 5 left 2 33 2 5 33 2 4 67 2 6 67 2 4 33 2 0 67 2 right s 1 5 5 43 28 41 21 81 44 49 18 75 0 45 displaystyle s sqrt frac 1 5 left 5 43 28 41 21 81 44 49 18 75 0 45 right s 119 34 5 displaystyle s sqrt frac 119 34 5 s 23 87 displaystyle s sqrt 23 87 s 4 88 displaystyle s approx 4 88 Desviacion estandar de la estatura media de hombres adultos Editar Si la poblacion estudiada tiene una distribucion aproximadamente normal la desviacion estandar proporciona informacion sobre la proporcion de las observaciones que se situan por encima o por debajo de ciertos valores Por ejemplo la estatura media de los hombres adultos en los Estados Unidos es de aproximadamente 177 8 cm con una desviacion estandar de alrededor de 7 62 cm Esto significa que la mayoria de los hombres alrededor del 68 suponiendo un distribucion normal tienen una altura dentro de un intervalo de 7 62 cm alrededor de la media entre 170 18 y 185 42 cm y que casi todos los hombres alrededor del 95 tienen una altura dentro de los 15 24 cm alrededor de la media entre 162 56 y 193 04 cm un intervalo de dos desviaciones estandar de radio Si la desviacion estandar fuera cero entonces todos los hombres tendrian una altura de exactamente 177 8 cm el valor medio Si la desviacion estandar fuera de 50 8 cm entonces los hombres tendrian alturas mucho mas variables con un rango tipico de aproximadamente entre 127 y 228 6 cm Un intervalo de tres desviaciones estandar de radio representa el 99 7 de la poblacion de la muestra que se estudia asumiendo que posee una distribucion normal en forma de campana Consultese la regla 68 95 99 7 o regla empirica para obtener mas informacion Definicion de los valores de una poblacion EditarProbabilidad Editar Sea X una variable aleatoria con valor medio E X m displaystyle operatorname E X mu Aqui el operador E denota el promedio o la esperanza matematica de X Entonces la desviacion estandar de X es la cantidad s E X m 2 E X 2 E 2 m X E m 2 E X 2 2 m E X m 2 E X 2 2 m 2 m 2 E X 2 m 2 E X 2 E X 2 displaystyle begin aligned sigma amp sqrt operatorname E X mu 2 amp sqrt operatorname E X 2 operatorname E 2 mu X operatorname E mu 2 amp sqrt operatorname E X 2 2 mu operatorname E X mu 2 amp sqrt operatorname E X 2 2 mu 2 mu 2 amp sqrt operatorname E X 2 mu 2 amp sqrt operatorname E X 2 operatorname E X 2 end aligned deducida utilizando las propiedades de la media En otras palabras la desviacion estandar s s es la raiz cuadrada de la varianza de X es decir es la raiz cuadrada del valor promedio de X m 2 La desviacion estandar de una distribucion de probabilidad de una variable es la misma que la de una variable aleatoria que tiene esa distribucion No todas las variables aleatorias tienen una desviacion estandar ya que estos valores no siempre existen necesariamente Por ejemplo la desviacion estandar de una variable aleatoria que sigue una distribucion de Cauchy no esta definida porque su valor esperado m no esta definido Variable aleatoria discreta Editar En el caso donde X toma valores aleatorios de un conjunto de datos finito x1 x2 xN con cada valor con la misma probabilidad la desviacion estandar es s 1 N x 1 m 2 x 2 m 2 x N m 2 d o n d e m 1 N x 1 x N displaystyle sigma sqrt frac 1 N left x 1 mu 2 x 2 mu 2 cdots x N mu 2 right rm donde mu frac 1 N x 1 cdots x N o usando la notacion con un sumatorio s 1 N i 1 N x i m 2 d o n d e m 1 N i 1 N x i displaystyle sigma sqrt frac 1 N sum i 1 N x i mu 2 rm donde mu frac 1 N sum i 1 N x i Si en lugar de poseer probabilidades iguales los valores poseen probabilidades diferentes entonces se tiene que x1 tiene la probabilidad p1 x2 tiene una probabilidad p2 xN tiene una probabilidad pN En este caso la desviacion estandar sera s i 1 N p i x i m 2 d o n d e m i 1 N p i x i displaystyle sigma sqrt sum i 1 N p i x i mu 2 rm donde mu sum i 1 N p i x i Variable aleatoria continua Editar La desviacion estandar de una variable aleatoria continua real X con una funcion de densidad de probabilidad p x es s X x m 2 p x d x d o n d e m X x p x d x displaystyle sigma sqrt int mathbf X x mu 2 p x rm d x rm donde mu int mathbf X x p x rm d x donde las integrales en x se extienden sobre el todo el conjunto de valores posibles de la variable aleatoria X En el caso de una familia parametrica de distribuciones la desviacion estandar se puede expresar en terminos de sus parametros Por ejemplo en el caso de la distribucion log normal con los parametros m y s2 la desviacion estandar es e s 2 1 e 2 m s 2 displaystyle sqrt e sigma 2 1 e 2 mu sigma 2 Desviacion estandar de distribuciones de probabilidad conocidas Editar Distribucion Parametros Descripcion Desviacion tipicaDistribucion de Bernoulli 8 p displaystyle p Distribucion discreta de valor 0 con probabilidad 1 p displaystyle 1 p y de valor 1 displaystyle 1 con probabilidad p displaystyle p s p 1 p displaystyle sigma sqrt p 1 p Distribucion binomial 9 p displaystyle p y n N displaystyle n in mathbb N Distribucion de la suma de n displaystyle n variables independientes de acuerdo con la distribucion de Bernoulli de parametro p displaystyle p s n p 1 p displaystyle sigma sqrt np 1 p Distribucion geometrica 10 p displaystyle p Distribucion discreta en N displaystyle mathbb N tal que la probabilidad de obtener un numero entero n displaystyle n es 1 p p n displaystyle 1 p p n s 1 p p 2 displaystyle sigma sqrt frac 1 p p 2 Distribucion uniforme continua 11 a lt b displaystyle a lt b Distribucion uniforme continua en R displaystyle mathbb R cuya densidad es un multiplo de la funcion indicadora de a b displaystyle a b s b a 12 displaystyle sigma frac b a sqrt 12 Distribucion exponencial 11 p displaystyle p Distribucion uniforme continua con soporte R displaystyle mathbb R cuya densidad es la funcion f x p exp p x displaystyle f colon x mapsto p exp px s 1 p displaystyle sigma frac 1 p Distribucion de Poisson 12 Error al representar error de sintaxis displaystyle lt semantics gt lt mrow class MJX TeXAtom ORD gt lt mstyle displaystyle true scriptlevel 0 gt lt mstyle displaystyle false scriptlevel 1 gt lt mi gt l lt l gt lt mi gt lt mstyle gt lt mstyle gt lt mrow gt lt annotation encoding application x tex gt displaystyle scriptstyle lambda lt annotation gt lt semantics gt l displaystyle lambda Distribucion en N displaystyle mathbb N cuya densidad es la funcion f x exp l l x x displaystyle f colon x mapsto exp lambda frac lambda x x en la que l R displaystyle lambda in mathbb R s l displaystyle sigma sqrt lambda Distribucion x 13 Error al representar error de sintaxis displaystyle lt semantics gt lt mrow class MJX TeXAtom ORD gt lt mstyle displaystyle true scriptlevel 0 gt lt mstyle displaystyle false scriptlevel 1 gt lt mi gt n lt mi gt lt mstyle gt lt mstyle gt lt mrow gt lt annotation encoding application x tex gt displaystyle scriptstyle n lt annotation gt lt semantics gt en displaystyle n Distribucion en R displaystyle mathbb R cuya densidad es la funcion f x 1 2 n 2 G n 2 x n 2 1 e x 2 displaystyle f colon x mapsto frac 1 2 frac n 2 Gamma frac n 2 x frac n 2 1 e frac x 2 para todo x displaystyle x positivo en la que G displaystyle Gamma es la funcion gamma s 2 n displaystyle sigma sqrt 2n Distribucion gamma 14 Error al representar error de sintaxis displaystyle lt semantics gt lt mrow class MJX TeXAtom ORD gt lt mstyle displaystyle true scriptlevel 0 gt lt mstyle displaystyle false scriptlevel 1 gt lt mi gt r lt mi gt lt mstyle gt lt mstyle gt lt mrow gt lt annotation encoding application x tex gt displaystyle scriptstyle n lt annotation gt lt semantics gt ea displaystyle alpha r displaystyle r y x displaystyle x Distribucion de probabilidad continua cuya densidad es la funcion f x a r a G r a x r 1 e a x displaystyle f x alpha r frac alpha Gamma r alpha x r 1 e alpha x para todo x displaystyle x positivo en la que G displaystyle Gamma es la funcion gamma s r a displaystyle sigma frac sqrt r alpha La desviacion estandar de una distribucion de probabilidad de una sola variable es igual a la desviacion estandar de una variable aleatoria con la misma distribucion No todas las variables aleatorias tienen desviacion estandar ya que los valores esperados pueden no existir Por ejemplo la desviacion estandar de una variable que sigue una distribucion de Cauchy es indefinida porque el valor de la media de la distribucion es indefinida 15 Estimacion EditarVease tambien Varianza Articulo principal Estimacion de la desviacion estandar no sesgada Es posible encontrarse con la desviacion estandar de una poblacion completa en casos donde se conoce el valor de todos y cada uno de los miembros de una poblacion En los casos en que esto no se puede hacer en general por tratarse con poblaciones muy grandes la desviacion estandar s se estima examinando una muestra de la poblacion tomada aleatoriamente y calculando un tratamiento estadistico de la muestra dada que se utiliza como una estimacion de la desviacion estandar de la poblacion Dicha estadistica se denomina un estimador y el estimador o el valor del estimador a saber la estimacion se denomina desviacion estandar de la muestra y se denota con s posiblemente con modificadores Sin embargo a diferencia del caso de estimar la media poblacional para la que la media muestral es un estimador simple con muchas propiedades deseables sin sesgo eficiente y con maxima probabilidad no existe un estimador unico para la desviacion estandar con todas estas propiedades y la estimacion de la desviacion estandar no sesgada es un problema con muchas implicaciones tecnicas La mayoria de las veces la desviacion estandar se calcula utilizando la desviacion estandar de la muestra corregida usando N 1 definida a continuacion y que a menudo se conoce simplemente como la desviacion estandar de la muestra sin calificadores Sin embargo otros estimadores son mejores en algunos aspectos el estimador no corregido que usa N produce un error cuadratico medio mas bajo mientras que el uso de N 1 5 para una distribucion normal elimina el sesgo casi por completo Desviacion estandar no corregida de una muestra Editar La formula para la desviacion estandar de una poblacion de una poblacion finita se puede aplicar a la muestra utilizando el tamano de la muestra como el tamano de la poblacion aunque el tamano real de la poblacion de la que se extrae la muestra sea mucho mas grande Este estimador denotado por sN se conoce como la desviacion estandar de la muestra no corregida o algunas veces como la desviacion estandar de la muestra considerada como la poblacion total y se define como sigue s N 1 N i 1 N x i x 2 displaystyle s N sqrt frac 1 N sum i 1 N x i overline x 2 donde x 1 x 2 x N displaystyle textstyle x 1 x 2 ldots x N son los valores observados de los elementos de la muestra y x displaystyle textstyle overline x es el valor medio de estas observaciones mientras que el denominador N representa el tamano de la muestra esta es la raiz cuadrada de la varianza de la muestra que es el promedio de las desviaciones al cuadrado respecto a la media muestral Este es un estimador consistente porque converge en probabilidad al valor de la poblacion cuando el numero de muestras llega al infinito y posee la maxima verosimilitud estimada cuando la poblacion esta normalmente distribuida Sin embargo posee un sesgo estadistico ya que el numero de observaciones es generalmente demasiado bajo El sesgo disminuye a medida que crece el tamano de la muestra disminuyendo como 1 N y por lo tanto es mas significativo para tamanos de muestra pequenos o moderados para N gt 75 displaystyle N gt 75 el sesgo es inferior al 1 Por lo tanto para tamanos de muestra muy grandes la desviacion estandar de la muestra no corregida es generalmente aceptable Este estimador tambien tiene un error cuadratico medio uniformemente mas pequeno que la desviacion estandar corregida de la muestra Desviacion estandar corregida de una muestra Editar Si la varianza sesgada el segundo momento central de la muestra que es una estimacion sesgada hacia abajo de la varianza de la poblacion se utiliza para calcular una estimacion de la desviacion estandar de la poblacion el resultado es s N 1 N i 1 N x i x 2 displaystyle s N sqrt frac 1 N sum i 1 N x i overline x 2 Aqui al tomar la raiz cuadrada se introduce un sesgo mas hacia abajo por la desigualdad de Jensen debido a que la raiz cuadrada es una funcion concava El sesgo en la varianza se corrige facilmente pero el sesgo de la raiz cuadrada es mas dificil de corregir y depende de la distribucion en cuestion Se obtiene un estimador no sesgado de la varianza aplicando la correccion de Bessel usando N 1 en lugar de N para obtener la varianza de la muestra no sesgada denotada por s2 s 2 1 N 1 i 1 N x i x 2 displaystyle s 2 frac 1 N 1 sum i 1 N x i overline x 2 Este estimador es insesgado si existe la varianza y los valores de la muestra se extraen independientemente con reemplazo es decir cada elemento de la muestra se devuelve a la poblacion antes de elegir el siguiente elemento N 1 corresponde al numero de grados de libertad del vector de desviaciones de la media x 1 x x n x displaystyle textstyle x 1 overline x dots x n overline x Al calcular la raiz cuadrada se reintroduce un sesgo porque la raiz cuadrada es una funcion no lineal que no posee la propiedad commutativa con respecto a la media lo que produce la desviacion estandar de la muestra corregida denotada por s s 1 N 1 i 1 N x i x 2 displaystyle s sqrt frac 1 N 1 sum i 1 N x i overline x 2 Como se explico anteriormente mientras que s2 es un estimador no sesgado de la varianza poblacional s sigue siendo un estimador sesgado para la desviacion estandar de la poblacion aunque es notablemente menos sesgado que la desviacion estandar de la muestra no corregida Este estimador se usa comunmente y generalmente se conoce simplemente como la desviacion estandar de la muestra El sesgo aun puede ser grande para muestras pequenas N menor de 10 A medida que aumenta el tamano de la muestra el valor del sesgo disminuye A medida que se dispone de mas informacion la diferencia entre 1 N displaystyle frac 1 N y 1 N 1 displaystyle frac 1 N 1 se hace cada vez mas pequena Desviacion estandar no sesgada de una muestra Editar Para la estimacion de la desviacion estandar no sesgada no existe una formula que funcione en todas las distribuciones a diferencia de lo que sucede con la media y con la varianza En su lugar s se usa como base y se escala segun un factor de correccion para producir una estimacion no sesgada Por ejemplo para la distribucion normal un estimador no sesgado viene dado por s c4 donde el factor de correccion que depende de N se da en terminos de la funcion gamma y es igual a c 4 N 2 N 1 G N 2 G N 1 2 displaystyle c 4 N sqrt frac 2 N 1 frac Gamma left frac N 2 right Gamma left frac N 1 2 right Esto se debe a que la distribucion de la desviacion estandar de la muestra sigue una distribucion x escalada y el factor de correccion es la media de la distribucion x Se puede dar una aproximacion reemplazando N 1 por N 1 5 dando como resultado s 1 N 1 5 i 1 N x i x 2 displaystyle hat sigma sqrt frac 1 N 1 5 sum i 1 N x i bar x 2 El error en esta aproximacion decae de forma cuadratica como 1 N2 y es adecuado para todas las muestras excepto las mas pequenas o cuando se requiere una precision maxima para N 3 el sesgo es igual al 1 3 y para N 9 el sesgo ya es menor del 0 1 Una aproximacion mas precisa es reemplazar el N 1 5 displaystyle N 1 5 anterior por N 1 5 1 8 N 1 displaystyle N 1 5 1 8 N 1 16 Para otras distribuciones la formula correcta depende de la distribucion pero una regla de oro es usar el refinamiento adicional de la aproximacion s 1 N 1 5 1 4 g 2 i 1 N x i x 2 displaystyle hat sigma sqrt frac 1 N 1 5 tfrac 1 4 gamma 2 sum i 1 N x i bar x 2 donde g2 denota la curtosis de la poblacion El exceso de curtosis puede ser conocido de antemano para ciertas distribuciones o estimado a partir de los datos Intervalo de confianza de la desviacion estandar de una muestra Editar Veanse tambien Error muestral Varianzay Distribucion t de Student La desviacion estandar que se obtiene de una muestra de una distribucion no es del todo precisa por razones matematicas de acuerdo con el intervalo de confianza y por razones practicas de medicion error de medicion El efecto matematico puede ser descrito por el intervalo de confianza o CI Para mostrar como una muestra mas grande hace que el intervalo de confianza sea mas estrecho considerense los siguientes ejemplos Una pequena poblacion de N 2 tiene solo 1 grado de libertad para estimar la desviacion estandar El resultado es que un IC del 95 de la desviacion estandar se extiende desde 0 45 s a 31 9 s los factores son aqui los siguientes Pr q a 2 lt k s 2 s 2 lt q 1 a 2 1 a displaystyle Pr left q alpha 2 lt k frac s 2 sigma 2 lt q 1 alpha 2 right 1 alpha donde q p displaystyle q p es el p cuantil de la distribucion x con k grados de libertad y 1 a displaystyle 1 alpha es el nivel de confianza Esto es equivalente a lo siguiente Pr k s 2 q 1 a 2 lt s 2 lt k s 2 q a 2 1 a displaystyle Pr left k frac s 2 q 1 alpha 2 lt sigma 2 lt k frac s 2 q alpha 2 right 1 alpha Con k 1 q 0 025 0 000982 displaystyle q 0 025 0 000982 y q 0 975 5 024 displaystyle q 0 975 5 024 Los reciprocos de las raices cuadradas de estos dos numeros proporcionan los factores 0 45 y 31 9 dados anteriormente Una poblacion mayor de N 10 tiene 9 grados de libertad para estimar la desviacion estandar Los mismos calculos anteriores proporcionan en este caso un IC del 95 que va desde 0 69 SD a 1 83 SD Por lo tanto incluso con una poblacion de 10 muestras la desviacion estandar real puede ser casi dos veces mayor que la de la muestra Para una poblacion con una muestra de N 100 esto se reduce a 0 88 SD a 1 16 s Para estar mas seguros de que la desviacion estandar de la muestra queda cerca de la real se necesita una muestra con un gran numero de datos Estas mismas formulas se pueden usar para obtener intervalos de confianza con la varianza de los residuos de un ajuste por minimos cuadrados segun la teoria normal estandar donde k seria el numero de grados de libertad del error Identidades y propiedades matematicas EditarLa desviacion estandar es invariante bajo los cambios del origen de coordenadas utilizado para la toma de los datos y es directamente proporcional con respecto a la escala de la variable aleatoria Por lo tanto para una constante c y variables aleatorias X e Y s c 0 displaystyle sigma c 0 s X c s X displaystyle sigma X c sigma X s c X c s X displaystyle sigma cX c sigma X La desviacion estandar de la suma de dos variables aleatorias se puede relacionar con sus desviaciones estandar individuales y la covarianza entre ellas s X Y var X var Y 2 cov X Y displaystyle sigma X Y sqrt operatorname var X operatorname var Y 2 operatorname cov X Y donde var s 2 displaystyle textstyle operatorname var sigma 2 y cov displaystyle textstyle operatorname cov representan la varianza y la covarianza respectivamente El calculo de la suma de las desviaciones al cuadrado se puede relacionar con los momentos calculados directamente a partir de los datos En la siguiente formula la letra E se interpreta como el valor esperado es decir la media s X E X E X 2 E X 2 E X 2 displaystyle sigma X sqrt operatorname E X operatorname E X 2 sqrt operatorname E X 2 operatorname E X 2 La desviacion estandar de la muestra se puede calcular como s X N N 1 E X E X 2 displaystyle s X sqrt frac N N 1 sqrt operatorname E X operatorname E X 2 Para una poblacion finita con probabilidades iguales en todos los puntos se tiene 1 N i 1 N x i x 2 1 N i 1 N x i 2 x 2 1 N i 1 N x i 2 1 N i 1 N x i 2 displaystyle sqrt frac 1 N sum i 1 N x i overline x 2 sqrt frac 1 N left sum i 1 N x i 2 right overline x 2 sqrt left frac 1 N sum i 1 N x i 2 right left frac 1 N sum i 1 N x i right 2 Esto significa que la desviacion estandar es igual a la raiz cuadrada de la diferencia entre el promedio de los cuadrados de los valores y el cuadrado del valor promedio Consultese la formula de calculo de la varianza para un resultado analogo con la desviacion estandar de la muestra Interpretacion y aplicacion EditarVeanse tambien Intervalo de prediccione Intervalo de confianza Ejemplo de muestras de dos poblaciones con la misma media pero con desviaciones estandar diferentes La poblacion representada en rojo tiene media 100 y s 10 la azul tiene media 100 y s 50 Una gran desviacion estandar indica que los puntos de datos pueden extenderse lejos de la media y una pequena desviacion estandar indica que estan agrupados cerca de la media Por ejemplo cada una de las tres poblaciones 0 0 14 14 0 6 8 14 y 6 6 8 8 tiene una media de 7 Sus desviaciones estandar son 7 5 y 1 Respectivamente La tercera poblacion tiene una desviacion estandar mucho mas pequena que las otras dos porque sus valores son todos cercanos a 7 La desviacion estandar posee las mismas unidades que los propios datos Si por ejemplo el conjunto de datos 0 6 8 14 representa las edades de una poblacion de cuatro hermanos en anos la desviacion estandar es de 5 anos Como otro ejemplo la poblacion 1000 1006 1008 1014 puede representar las distancias recorridas por cuatro atletas medidas en metros Tiene una media de 1007 metros y una desviacion estandar de 5 metros La desviacion estandar puede servir como una medida de incertidumbre En fisica por ejemplo la desviacion estandar de un conjunto de mediciones sucesivas de una misma magnitud como por ejemplo de la velocidad de la luz indica la precision de esas mediciones Al determinar si las mediciones concuerdan con una prediccion teorica la desviacion estandar de esas mediciones es de crucial importancia si la media de las mediciones esta demasiado alejada de la prediccion con la esta distancia medida segun la desviacion estandar entonces la teoria que se esta probando probablemente necesita ser revisada Esto tiene sentido ya que se encuentran fuera del rango de valores que podrian esperarse razonablemente si la prediccion fuera correcta y la desviacion estandar se cuantificara adecuadamente vease intervalo de prediccion Si bien la desviacion estandar determina en que medida se alejan los datos de la media hay otras medidas disponibles Un ejemplo es la desviacion media que podria considerarse una medida mas directa de la distancia promedio en comparacion con la raiz de las distancias al cuadrado inherente a la desviacion estandar Interpretacion grafica Editar Visualizacion geometrica de la varianza de una distribucion Imagen 1 Se construye la distribucion de frecuencias Imagen 2 El centroide de la distribucion proporciona la media Imagen 3 Se construye para cada valor un cuadrado cuyo lado es igual a la diferencia de cada valor respecto a la media Imagen 4 Se reorganizan los cuadrados en un rectangulo con un lado igual al numero n displaystyle n de valores resultando el otro lado igual a la varianza de la distribucion s 2 displaystyle sigma 2 Para un conjunto de datos finito la desviacion estandar se calcula a partir de la raiz cuadrada de la media de las desviaciones entre los valores y el promedio de los valores de los datos elevado al cuadrado 17 A continuacion se incluye el desarrollo numerico del ejemplo grafico mostrado en la ilustracion de la derecha Sean las notas de 8 estudiantes n 8 displaystyle n 8 2 4 4 4 5 5 7 9 La media de las notas de los 8 estudiantes es 2 4 4 4 5 5 7 9 8 5 displaystyle frac 2 4 4 4 5 5 7 9 8 5 Las desviaciones entre las notas y la media de las notas elevadas al cuadrado son 2 5 2 3 2 9 5 5 2 0 2 0 4 5 2 1 2 1 5 5 2 0 2 0 4 5 2 1 2 1 7 5 2 2 2 4 4 5 2 1 2 1 9 5 2 4 2 16 displaystyle begin array lll 2 5 2 3 2 9 amp amp 5 5 2 0 2 0 4 5 2 1 2 1 amp amp 5 5 2 0 2 0 4 5 2 1 2 1 amp amp 7 5 2 2 2 4 4 5 2 1 2 1 amp amp 9 5 2 4 2 16 end array La varianza o el promedio de todos los valores es 9 1 1 1 0 0 4 16 8 4 displaystyle frac 9 1 1 1 0 0 4 16 8 4 La desviacion estandar o la raiz cuadrada de la varianza es 4 2 displaystyle sqrt 4 2 Esto es la desviacion estandar es igual a 2 17 Interpretacion geometrica Editar Para obtener algunas ideas y aclaraciones geometricas se plantea una poblacion con tres valores x1 x2 y x3 Esto define un punto P x1 x2 x3 en R3 Considerese la recta L r r r r R Esta es la diagonal principal pasando por el origen Si los tres valores dados fueran todos iguales entonces la desviacion estandar seria cero y P estaria en L Por lo tanto es logico suponer que la desviacion estandar esta relacionada con la distancia de P con respecto a L Ese es de hecho el caso Para desplazarse ortogonalmente desde L hasta el punto P se comienza en el punto M x x x displaystyle M overline x overline x overline x cuyas coordenadas son la media de los valores de partida DemostracionSea M x x x displaystyle M overline x overline x overline x M displaystyle M esta en L displaystyle L por lo tanto M l l l displaystyle M l l l con l R displaystyle l in textbf R La linea L displaystyle L debe ser ortogonal al vector de M displaystyle M a P displaystyle P Por lo tanto L P M 0 r r r x 1 l x 2 l x 3 l 0 r x 1 l x 2 l x 3 l 0 r i x i 3 l 0 i x i 3 l 0 1 3 i x i l x l displaystyle begin aligned L cdot P M amp 0 r r r cdot x 1 l x 2 l x 3 l amp 0 r x 1 l x 2 l x 3 l amp 0 r sum limits i x i 3l amp 0 sum limits i x i 3l amp 0 frac 1 3 sum limits i x i amp l overline x amp l end aligned Mediante un poco de algebra se demuestra que la distancia entre P y M que es la misma que la distancia ortogonal entre P y la recta L i x i x 2 displaystyle sqrt sum limits i x i overline x 2 es igual a la desviacion estandar del vector x1 x2 x3 multiplicado por la raiz cuadrada del numero de dimensiones del vector 3 en este caso Ejemplos de aplicacion Editar El valor practico de comprender la desviacion estandar de un conjunto de valores reside en apreciar su grado de variacion con respecto a la media Experimentos pruebas industriales y de hipotesis Editar La desviacion estandar a menudo se usa para comparar datos del mundo real con un modelo para probar el modelo Por ejemplo en aplicaciones industriales el peso de los productos que salen de una linea de produccion puede necesitar cumplir con un valor legalmente requerido Al pesar alguna fraccion de los productos se puede determinar un peso promedio que siempre sera ligeramente diferente al promedio a largo plazo Al utilizar la desviacion estandar se puede calcular un valor minimo y maximo tales que el peso promedio estara dentro en un porcentaje muy alto de las ocasiones un 99 9 o mas Si cae fuera del rango es posible que el proceso de produccion deba corregirse Pruebas estadisticas como estas son particularmente importantes cuando la obtencion de medidas es relativamente cara Por ejemplo si el producto necesita ser abierto y drenado para pesarse o si el producto es alterado por la prueba En la ciencia experimental se utiliza un modelo teorico de la realidad Por ejemplo la fisica de particulas usa convencionalmente un estandar de 5 sigma para la declaracion de un descubrimiento 18 Un nivel de cinco sigma se traduce en una posibilidad entre 3 5 millones de que una fluctuacion aleatoria produzca el resultado predicho Este nivel de certeza era necesario para afirmar que se habia descubierto una particula consistente con el boson de Higgs en dos experimentos independientes realizados por la Organizacion Europea para la Investigacion Nuclear 19 y este fue tambien el nivel de relevancia que llevo a la declaracion de la deteccion de ondas gravitacionales por primera vez 20 Meteorologia Editar Como ejemplo simple considerense las temperaturas maximas promedio diarias de dos ciudades una interior y otra en la costa Es util comprender que el rango de temperaturas maximas diarias para las ciudades cercanas a la costa es menor que para las ciudades del interior Por lo tanto si bien estas dos ciudades pueden tener la misma temperatura maxima promedio la desviacion estandar de la temperatura maxima diaria para la ciudad costera sera menor que la de la ciudad interior ya que en cualquier dia en particular la temperatura maxima real es mas probable que se situe mas lejos de la temperatura maxima promedio en la ciudad interior que en la costera Finanzas Editar En finanzas la desviacion estandar se usa a menudo como una medida del riesgo asociado con las fluctuaciones de precio de un activo determinado acciones bonos propiedad etc o con el riesgo de una cartera de activos 21 fondos mutuos administrados activamente indice mutuo de fondos o fondos cotizados El riesgo es un factor importante para determinar como administrar de manera eficiente una cartera de inversiones porque determina la variacion en los rendimientos del activo y o la cartera y brinda a los inversores una base matematica para tomar decisiones de inversion segun una disciplina conocida como teoria moderna de carteras El concepto fundamental de riesgo es que a medida que aumenta el rendimiento esperado de una inversion tambien deberia aumentar segun un aumento conocido como la prima de riesgo En otras palabras los inversores deben esperar un mayor rendimiento de una inversion cuando esa inversion conlleva un mayor nivel de riesgo o incertidumbre Al evaluar las inversiones los inversores deben estimar tanto el rendimiento esperado como la incertidumbre de los rendimientos futuros La desviacion estandar proporciona una estimacion cuantificada de la incertidumbre de los rendimientos futuros Por ejemplo supongase que un inversor tiene que elegir entre dos acciones Las acciones A en los ultimos 20 anos tuvieron un rendimiento promedio del 10 por ciento con una desviacion estandar de 20 puntos porcentuales pp y las acciones B durante el mismo periodo tuvieron rendimientos promedio del 12 por ciento pero una desviacion estandar mas alta de 30 pp Como base del riesgo y la rentabilidad un inversor puede decidir que la accion A es la opcion mas segura ya que los dos puntos porcentuales adicionales de la accion B no valen la desviacion estandar adicional de 10 pp mayor riesgo o incertidumbre de la rentabilidad esperada Es probable que las acciones B no alcancen la inversion inicial pero tambien que excedan la inversion inicial con mayor frecuencia que las acciones A en las mismas circunstancias y se estima que en promedio solo retornaran un dos por ciento mas En este ejemplo se espera que la accion A gane alrededor del 10 por ciento mas o menos 20 pp un rango del 30 por ciento al 10 por ciento aproximadamente dos tercios de los rendimientos del ano futuro Al considerar rendimientos o resultados mas extremos en el futuro un inversor debe esperar resultados de hasta un 10 por ciento mas o menos 60 pp o un rango del 70 por ciento al 50 por ciento que incluye los resultados en un rango de tres desviaciones estandar del rendimiento promedio alrededor del 99 7 por ciento de los rendimientos probables El calculo del promedio o media aritmetica del rendimiento de un valor en un periodo determinado generara el rendimiento esperado del activo Para cada periodo se resta el rendimiento esperado de los resultados reales con respecto de la media Al elevar al cuadrado la diferencia en cada periodo y tomar el promedio se obtiene la varianza general del rendimiento del activo Cuanto mayor sea la variacion mayor sera el riesgo que conlleva Calculando la raiz cuadrada de esta variacion se obtiene la desviacion estandar de la herramienta de inversion en cuestion La desviacion estandar de la poblacion se usa para establecer el ancho de las bandas de Bollinger una herramienta de analisis tecnico ampliamente utilizada Por ejemplo la banda superior de Bollinger se da como x nsx El valor mas comunmente usado para n es 2 hay un cinco por ciento de posibilidades de obtener un valor por fuera de la banda asumiendo una distribucion normal de los rendimientos Se sabe que las series temporales financieras son series no estacionarias mientras que los calculos estadisticos anteriores como la desviacion estandar se aplican solo a las series estacionarias Para aplicar las herramientas estadisticas anteriores a las series no estacionarias la serie primero debe transformarse en una serie estacionaria permitiendo el uso de herramientas estadisticas con una base valida desde la que poder trabajar en terminos homogeneos Reglas para datos con una distribucion normal Editar El color azul oscuro representa el intervalo de la desviacion estandar a ambos lados de la media Para la distribucion normal esto representa el 68 27 por ciento del conjunto mientras que dos desviaciones estandar de la media azul medio y oscuro representan 95 45 por ciento tres desviaciones estandar azul claro medio y oscuro representan el 99 73 por ciento y cuatro desviaciones estandar representan el 99 994 por ciento Los dos puntos de la curva situados a una desviacion estandar de la media son tambien los puntos de inflexion de la grafica Teorema del limite central Editar Articulo principal Teorema del limite central El teorema del limite central establece que la distribucion de un promedio de muchas variables aleatorias independientes e identicamente distribuidas tiende hacia la famosa distribucion normal en forma de campana con una funcion de densidad de probabilidad de f x m s 2 1 s 2 p e 1 2 x m s 2 displaystyle f x mu sigma 2 frac 1 sigma sqrt 2 pi e frac 1 2 left frac x mu sigma right 2 donde m es la esperanza matematica de las variables aleatorias s equivale a la desviacion estandar de su distribucion dividida por n1 2 y n es el numero de variables aleatorias Por lo tanto la desviacion estandar es simplemente una variable de escala que ajusta la amplitud de la curva aunque tambien aparece en la constante de normalizacion Si una distribucion de datos es aproximadamente normal entonces la proporcion de valores de datos dentro de z desviaciones estandar de la media se define por Proporcion erf z 2 displaystyle text Proporcion operatorname erf left frac z sqrt 2 right donde erf displaystyle textstyle operatorname erf es la funcion error La proporcion que es menor o igual a un numero x viene dada por la funcion de distribucion 22 Proporcion x 1 2 1 erf x m s 2 1 2 1 erf z 2 displaystyle text Proporcion leq x frac 1 2 left 1 operatorname erf left frac x mu sigma sqrt 2 right right frac 1 2 left 1 operatorname erf left frac z sqrt 2 right right Si una distribucion de datos es aproximadamente normal cerca del 68 por ciento de los valores de los datos estaran dentro de una desviacion estandar de la media matematicamente m s donde m es la media aritmetica del orden del 95 por ciento estaran dentro de dos desviaciones estandar y en torno a un 99 7 por ciento estaran dentro de tres desviaciones estandar 3s Esto se conoce como la regla 68 95 99 7 o la regla empirica Para varios valores de z el porcentaje de valores que se espera que se encuentren dentro y fuera del intervalo simetrico CI zs zs son los siguientes Porcentaje dentro de z z para el porcentaje abarcado Intervalo de Confianza Proporcion dentro Proporcion fueraPorcentaje Porcentaje Fraccion0 318 639 s 25 75 3 40 674490 s 50 50 1 20 994458 s 68 32 1 3 1251 s 68 2689492 31 7310508 1 3 15148721 281552 s 80 20 1 51 644854 s 90 10 1 101 959964 s 95 5 1 202 s 95 4499736 4 5500264 1 21 9778952 575829 s 99 1 1 1003 s 99 7300204 0 2699796 1 370 3983 290527 s 99 9 0 1 1 10003 890592 s 99 99 0 01 1 10 0004 s 99 993666 0 006334 1 15 7874 417173 s 99 999 0 001 1 100 0004 5 s 99 9993204653751 0 0006795346249 3 4 1 000 000 a cada lado de la media 4 891638 s 99 9999 0 0001 1 1 000 0005 s 99 9999426697 0 0000573303 1 1 744 2785 326724 s 99 99999 0 00001 1 10 000 0005 730729 s 99 999999 0 000001 1 100 000 0006 s 99 9999998027 0 0000001973 1 506 797 3466 109410 s 99 9999999 0 0000001 1 1 000 000 0006 466951 s 99 99999999 0 00000001 1 10 000 000 0006 806502 s 99 999999999 0 000000001 1 100 000 000 0007 s 99 9999999997440 0 000000000256 1 390 682 215 445Desigualdad de Chebyshov Editar Regiones de probabilidad de los intervalos de la desigualdad de Chebyshov en una distribucion simetrica Articulo principal Desigualdad de Chebyshov Una observacion cualquiera rara vez se situa a mas de unas pocas desviaciones estandar de la media La desigualdad de Chebyshov garantiza que para todas las distribuciones para las que se define la desviacion estandar la cantidad de datos dentro de una serie de desviaciones estandar de la media es al menos la que se indica en la siguiente tabla Distancia respecto a la media Poblacion minima abarcada2 s displaystyle sqrt 2 sigma 50 2s 75 3s 89 4s 94 5s 96 6s 97 k s displaystyle k sigma 1 1 k 2 displaystyle 1 frac 1 k 2 23 1 1 ℓ s displaystyle frac 1 sqrt 1 ell sigma ℓ displaystyle ell Relacion entre la desviacion estandar y la media EditarEn estadistica descriptiva la media y la desviacion estandar de un conjunto de datos son generalmente facilitadas juntas En cierto sentido la desviacion estandar es una medida natural de las medidas de dispersion si el centro de los datos se mide alrededor de la media Esto se debe a que la desviacion estandar respecto a la media es menor que desde cualquier otro punto La declaracion precisa es la siguiente Supongase que x1 xn son numeros reales y se define la funcion s r 1 N 1 i 1 N x i r 2 displaystyle sigma r sqrt frac 1 N 1 sum i 1 N x i r 2 Usando el calculo infinitesimal o completando el cuadrado es posible demostrar que s r tiene un minimo unico en la media r x displaystyle r overline x La variabilidad tambien puede medirse mediante el coeficiente de variacion que es la relacion de la desviacion estandar con respecto a la media Es una magnitud adimensional Desviacion estandar de la media Editar Articulo principal Error estandar A menudo se requiere informacion sobre la precision de la media obtenida Este parametro se puede obtener determinando la desviacion estandar de la media de la muestra Suponiendo una independencia estadistica de los valores de la muestra la desviacion estandar de la media esta relacionada con la desviacion estandar de la distribucion por s media 1 N s displaystyle sigma text media frac 1 sqrt N sigma donde N es el numero de observaciones de la muestra utilizada para estimar la media Esto se puede probar facilmente con veanse las propiedades basicas de la varianza var X s X 2 var X 1 X 2 var X 1 var X 2 displaystyle begin aligned operatorname var X amp equiv sigma X 2 operatorname var X 1 X 2 amp equiv operatorname var X 1 operatorname var X 2 end aligned se supone la independencia estadistica de los datos var c X 1 c 2 var X 1 displaystyle begin aligned operatorname var cX 1 amp equiv c 2 operatorname var X 1 end aligned por lo tanto var media var 1 N i 1 N X i 1 N 2 var i 1 N X i 1 N 2 i 1 N var X i N N 2 var X 1 N var X displaystyle begin aligned operatorname var text media amp operatorname var left frac 1 N sum i 1 N X i right frac 1 N 2 operatorname var left sum i 1 N X i right amp frac 1 N 2 sum i 1 N operatorname var X i frac N N 2 operatorname var X frac 1 N operatorname var X end aligned De aqui se deduce que s media s N displaystyle sigma text media frac sigma sqrt N Se debe enfatizar que para estimar la desviacion estandar de la media s media displaystyle sigma text media es necesario conocer de antemano la desviacion estandar de toda la poblacion s displaystyle sigma Sin embargo en la mayoria de las aplicaciones este parametro es desconocido Por ejemplo si se realiza una serie de 10 mediciones de una cantidad previamente desconocida en un laboratorio es posible calcular la media de la muestra resultante y la desviacion estandar de la muestra pero es imposible calcular la desviacion estandar de la media Metodos de calculo rapido EditarVease tambien Algoritmos para calcular la varianza Las dos formulas siguientes permiten calcular una desviacion estandar agregando datos Un conjunto de dos sumas de potencias s1 y s2 se calculan sobre un conjunto de N valores de x denotado como x1 xN s j k 1 N x k j displaystyle s j sum k 1 N x k j Dados los resultados de estas sumas en ejecucion los valores N s1 s2 se pueden usar en cualquier momento para calcular el valor actual de la desviacion estandar de ejecucion s N s 2 s 1 2 N displaystyle sigma frac sqrt Ns 2 s 1 2 N Donde N como se menciono anteriormente es el tamano del conjunto de valores o tambien puede considerarse como s0 Del mismo modo para la desviacion estandar de la muestra s N s 2 s 1 2 N N 1 displaystyle s sqrt frac Ns 2 s 1 2 N N 1 En un programa de ordenador a medida que las sumas de tres sj se hacen grandes se debe considerar el error de redondeo y el desbordamiento aritmetico por rebosamiento de grandes cantidades o por la perdida de la mantisa El siguiente metodo calcula el metodo de las sumas con errores de redondeo reducidos 24 Se trata de un algoritmo de una pasada para calcular la varianza de n muestras sin la necesidad de almacenar los datos anteriores durante el calculo La aplicacion de este metodo a una serie devuelve valores sucesivos de la desviacion estandar correspondiente a n datos a medida que n crece con cada nueva muestra en lugar de un calculo que requiera analizar en su totalidad el nuevo conjunto de datos Para k 1 n A 0 0 A k A k 1 x k A k 1 k displaystyle begin aligned A 0 amp 0 A k amp A k 1 frac x k A k 1 k end aligned donde A es el valor medio Q 0 0 Q k Q k 1 k 1 k x k A k 1 2 Q k 1 x k A k 1 x k A k displaystyle begin aligned Q 0 amp 0 Q k amp Q k 1 frac k 1 k x k A k 1 2 Q k 1 x k A k 1 x k A k end aligned Nota Q 1 0 displaystyle Q 1 0 desde k 1 0 displaystyle k 1 0 o x 1 A 1 displaystyle x 1 A 1 Varianza de la muestra s n 2 Q n n 1 displaystyle s n 2 frac Q n n 1 Varianza de la poblacion s n 2 Q n n displaystyle sigma n 2 frac Q n n Calculo ponderado Editar Cuando los valores xi se ponderan con pesos desiguales wi las sumas de potencias s0 s1 s2 se computan como s j k 1 N w k x k j displaystyle s j sum k 1 N w k x k j y las ecuaciones de la desviacion estandar se mantienen sin cambios Tengase en cuenta que s0 es ahora la suma de los pesos y no el numero de muestras N El metodo incremental con errores de redondeo reducidos tambien se puede aplicar con cierta complejidad adicional Se debe calcular una suma de pesos para cada k desde 1 hasta n W 0 0 W k W k 1 w k displaystyle begin aligned W 0 amp 0 W k amp W k 1 w k end aligned y los lugares donde se usa 1 n anteriormente deben reemplazarse por wi Wn A 0 0 A k A k 1 w k W k x k A k 1 Q 0 0 Q k Q k 1 w k W k 1 W k x k A k 1 2 Q k 1 w k x k A k 1 x k A k displaystyle begin aligned A 0 amp 0 A k amp A k 1 frac w k W k x k A k 1 Q 0 amp 0 Q k amp Q k 1 frac w k W k 1 W k x k A k 1 2 Q k 1 w k x k A k 1 x k A k end aligned En la division final s n 2 Q n W n displaystyle sigma n 2 frac Q n W n y s n 2 Q n W n 1 displaystyle s n 2 frac Q n W n 1 o s n 2 n n 1 s n 2 displaystyle s n 2 frac n n 1 sigma n 2 donde n es el numero total de elementos y n es el numero de elementos con ponderaciones distintas de cero Las formulas anteriores se hacen iguales a las formulas mas simples dadas arriba si los pesos se toman como iguales a uno Historia EditarEl termino desviacion estandar fue utilizado por primera vez en un escrito por Karl Pearson 25 en una comunicacion a la Royal Society 26 de 1894 aunque ya lo habia utilizado en sus clases Esta denominacion sustituyo a otros nombres anteriores de la misma idea por ejemplo Gauss uso la expresion error medio 27 Vease tambien EditarRegla 68 95 99 7 Precision y exactitud Desigualdad de Chebyshov Desigualdad de Samuelson Cumulante Desviacion estadistica Correlacion de la distancia Barra de error Desviacion estandar geometrica Distancia de Mahalanobis Error absoluto medio Varianza agrupada Propagacion de errores Percentil Puntuacion bruta Coeficiente de variacion Media cuadratica Tamano de la muestra Seis Sigma Error estandar Unidad tipificada Volatilidad finanzas Parametro estadistico Desviacion estandar robusta Metodo de YamartinoReferencias Editar Bland J M Altman D G 1996 Statistics notes measurement error BMJ 312 7047 1654 PMC 2351401 PMID 8664723 doi 10 1136 bmj 312 7047 1654 UPTC Desviacion tipica Formulas Gauss Carl Friedrich 1816 Bestimmung der Genauigkeit der Beobachtungen Zeitschrift fur Astronomie und verwandte Wissenschaften 1 187 197 Walker Helen 1931 Studies in the History of the Statistical Method Baltimore MD Williams amp Wilkins Co pp 24 25 Logan Murray 2010 Biostatistical Design and Analysis Using R First edicion Wiley Blackwell Furness R W Bryant D M 1996 Efecto del viento en la tasa metabolica de los petreles del norte Ecology 77 1181 1188 doi 10 2307 2265587 Weisstein Eric W Bessel s Correction En Weisstein Eric W ed MathWorld en ingles Wolfram Research Saporta Gilbert 2006 Probabilites Analyse des Donnees et Statistiques Paris Editions Technip p 30 de 662 Saporta Gilbert 2006 Probabilites Analyse des Donnees et Statistiques Paris Editions Technip p 31 de 622 Saporta Gilbert 2006 Probabilites Analyse des Donnees et Statistiques Paris Editions Technip p 38 de 622 a b Saporta Gilbert 2006 Probabilites Analyse des Donnees et Statistiques Paris Editions Technip p 39 de 622 Saporta Gilbert 2006 Probabilites Analyse des donnees et Statistiques Paris Editions Technip p 33 de 622 Dodge Yadolah 2010 The Concise Encyclopaedia of Statistics New York Springer p 71 de 622 Dodge Yadolah 2010 The Concise Encyclopaedia of Statistics New York Springer p 71 de 622 Dodge Yadolah 2010 The Concise Encyclopaedia of Statistics New York Springer p 60 de 622 John Gurland and Ram C Tripathi 1971 A Simple Approximation for Unbiased Estimation of the Standard Deviation The American Statistician 25 4 30 32 doi 10 2307 2682923 a b Martins Maria Eugenia Graca Desvio Padrao Amostral Revista de Ciencia Elementar 1 1 Consultado el 6 de febrero de 2017 CERN Accelerating science Public web cern ch Consultado el 10 de agosto de 2013 CERN experiments observe particle consistent with long sought Higgs boson CERN press office Press web cern ch 4 de julio de 2012 Consultado el 30 de mayo de 2015 LIGO Scientific Collaboration Virgo Collaboration 2016 Observation of Gravitational Waves from a Binary Black Hole Merger Physical Review Letters 116 6 061102 Bibcode 2016PhRvL 116f1102A PMID 26918975 arXiv 1602 03837 doi 10 1103 PhysRevLett 116 061102 What is Standard Deviation Pristine Consultado el 29 de octubre de 2011 Eric W Weisstein Distribution Function MathWorld A Wolfram Web Resource Consultado el 30 de septiembre de 2014 Ghahramani Saeed 2000 Fundamentals of Probability 2nd Edition Prentice Hall New Jersey p 438 Welford BP August 1962 Note on a Method for Calculating Corrected Sums of Squares and Products Technometrics 4 3 419 420 doi 10 1080 00401706 1962 10490022 Archivado desde el original el 2 de febrero de 2017 Consultado el 1 de diciembre de 2018 Dodge Yadolah 2003 The Oxford Dictionary of Statistical Terms Oxford University Press ISBN 0 19 920613 9 Pearson Karl 1894 On the dissection of asymmetrical frequency curves Philosophical Transactions of the Royal Society A 185 71 110 Bibcode 1894RSPTA 185 71P doi 10 1098 rsta 1894 0003 Miller Jeff Earliest Known Uses of Some of the Words of Mathematics Enlaces externos Editar Wikimedia Commons alberga una galeria multimedia sobre Desviacion tipica Simulacion de la desviacion tipica de una variable discreta conR lenguaje de programacion Hazewinkel Michiel ed 2001 Quadratic deviation Encyclopaedia of Mathematics en ingles Springer ISBN 978 1556080104 A simple way to understand Standard Deviation Standard Deviation an explanation without maths The concept of Standard Deviation is shown in this 8 pies 2 4 m Probability Machine named Sir Francis comparing stock market returns to the randomness of the beans dropping through the quincunx pattern en YouTube from Index Funds Advisors IFA com Datos Q159375 Multimedia Standard deviationObtenido de https es wikipedia org w index php title Desviacion tipica amp oldid 136782811, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos