fbpx
Wikipedia

Estimación de la desviación estándar no sesgada

En estadística, y en particular en estadística teórica, la estimación de la desviación estándar no sesgada es el cálculo de un valor estimado de la desviación estándar de una población de valores obtenida a partir de una muestra estadística (una medida de dispersión), de tal manera que la esperanza matemática obtenida del cálculo sea igual a su valor verdadero. Excepto en algunas situaciones importantes, que se describen más adelante, la tarea tiene poca relevancia para las aplicaciones estadísticas, ya que su necesidad se evita mediante procedimientos estándar, como el uso del contraste de hipótesis y de intervalos de confianza, o mediante el uso de inferencia bayesiana.

Sin embargo, para la teoría estadística, proporciona un problema que sirve de ejemplo en el contexto de la estimación estadística que es simple de exponer, y cuyos resultados no se pueden obtener de forma cerrada. También proporciona un ejemplo en el que imponer el requisito de ausencia de sesgo estadístico podría verse como un simple inconveniente, sin un beneficio real.

Trasfondo

En estadística, la desviación típica de una población de números a menudo se estima a partir de una muestra extraída de la población. Entonces se habla de la desviación estándar de la muestra, que se define por

 

donde   es la muestra (formalmente, las realizaciones de una variable aleatoria X) y   es su media muestral.

Una forma de ver que se produce un sesgo estadístico de la desviación estándar de la población es suponer que el resultado de s2 posee un sesgo estadístico subyacente de la varianza σ2 de la población, si existe esa varianza y se extraen los valores de la muestra, independientemente de que se haga con reemplazo. La raíz cuadrada es una función no lineal, y solo las funciones lineales son conmutativas al evaluar la expectativa de un suceso. Como la raíz cuadrada es una función estrictamente cóncava, según la desigualdad de Jensen se deduce que la raíz cuadrada de la varianza de la muestra es una subestimación de su valor.

El uso de n & minus; 1 en lugar de n en la fórmula para la varianza de la muestra se conoce como corrección de Bessel, que permite corregir el sesgo en la estimación de la varianza de la población, y algunos (pero no todos) sesgos en la estimación de la desviación estándar de la muestra.

No es posible encontrar una estimación de la desviación estándar que sea imparcial para todas las distribuciones de la población, ya que el sesgo depende de cada distribución en particular. Gran parte de los apartados siguientes se relacionan con la estimación no sesgada suponiendo una distribución normal.

Corrección del sesgo

Resultados para la distribución normal

 
Factor de corrección c4 frente al tamaño de la muestra n

Cuando la variable aleatoria está normalmente distribuida, existe una corrección menor para eliminar el sesgo. Para deducir esta corrección, ha de tenerse en cuenta que una variable X normalmente distribuida, según el teorema de Cochran, implica que   tiene una distribución χ² con n − 1 grados de libertad, y por lo tanto, su raíz cuadrada   tiene una distribución χ con n − 1 grados de libertad. En consecuencia, calculando el valor esperado de esta última expresión y reorganizando las constantes,

 

donde el factor de corrección c4 (n) es la media de la escala de la distribución chi con n − 1 grados de libertad,   El resultado depende del tamaño de la muestra n y se obtiene de la siguiente manera:[1]

 

donde Γ (·) es la función gamma. Se puede obtener un estimador sin sesgo de σ al dividir s por c4 (n). A medida que n crece, se acerca a 1, e incluso para valores más pequeños, la corrección es menor. La figura muestra una gráfica de c4 (n) con respecto al tamaño de muestra. La siguiente tabla muestra valores numéricos de c4 y expresiones algebraicas para algunos valores de n. Se pueden encontrar tablas más completas en la mayoría de los libros de texto sobre control estadístico de procesos.

Tamaño de la muestra Expresión de c4 Valor numérico
2   0.7978845608
3   0.8862269255
4   0.9213177319
5   0.9399856030
6   0.9515328619
7   0.9593687891
8   0.9650304561
9   0.9693106998
10   0.9726592741
100 0.9974779761
1000 0.9997497811
10000 0.9999749978
2k  
2k+1  

Es importante tener en cuenta que esta corrección solo produce un estimador imparcial para la "X" distribuida de manera normal e independiente. Cuando se cumple esta condición, otro resultado de s que involucra a c4 (n) es que el error estándar de s es[2][3] , mientras que el error estándar del estimador no sesgado es  .

Regla aproximada para estimar el sesgo de la distribución normal

Si el cálculo de la función c4 (n) puede parecer demasiado difícil, existe una simple regla del pulgar[4]​ para estimarla:

 

La fórmula difiere de la expresión habitual de s2 solo por tener (n − 1.5) en lugar de (n − 1) en el denominador. Esta expresión es solo aproximada, de hecho, la fórmula exacta es:

 

Sin embargo, la diferencia en el sesgo obtenido con la regla aproximada es relativamente pequeña: por ejemplo, para n = 3 es igual al 1.3%, y para n = 9 la diferencia ya es menor del 0.1%.

Otras distribuciones

En los casos en que los datos estadísticamente independientes son modelados por una familia paramétrica de distribuciones diferentes de una distribución normal, la desviación estándar de la población, si existe, será una función de los parámetros del modelo. Un enfoque general para la estimación sería determinar la máxima verosimilitud. Alternativamente, puede ser posible usar el teorema de Rao-Blackwell como un método para encontrar una buena estimación de la desviación estándar. En ningún caso las estimaciones obtenidas generalmente serán no sesgadas. Básicamente, podrían obtenerse ajustes teóricos para obtener estimaciones no sesgadas, pero, a diferencia del caso de la distribución normal, casi siempre dependerían de los parámetros estimados.

Si el requisito es simplemente reducir el sesgo de una desviación estándar estimada, en lugar de eliminarlo por completo, entonces hay dos enfoques prácticos disponibles, ambos dentro del contexto del remuestreo, que se denominan jackknife y bootstrapping. Ambas técnicas se pueden aplicar a estimaciones basadas en parámetros de la desviación estándar o a la propia desviación estándar de la muestra.

Para distribuciones no normales, una fórmula aproximada (hasta O (n−1)) para el estimador no sesgado de la desviación estándar es:

 

donde γ2 denota la curtosis de la población. El exceso de curtosis se puede conocer de antemano para ciertas distribuciones o se puede estimar a partir de los datos.

Efecto de la autocorrelación (correlación serial)

Como ya se ha señalado, los principios anteriores solo se aplican a datos estadísticamente independientes. Sin embargo, los datos del mundo real a menudo no cumplen con este requisito; y pueden estar autocorrelacionados (característica también conocida como correlación serial). Por ejemplo, las lecturas sucesivas de un instrumento de medición que incorpora algún tipo de proceso de "suavizado" (más correctamente, filtrado de paso bajo) se autocorrelacionarán, ya que cualquier valor en particular se calcula a partir de una combinación de las lecturas anteriores y posteriores.

Las estimaciones de la varianza y la desviación estándar de los datos autocorrelacionados estarán sesgadas. El valor esperado de la varianza de la muestra es:[5]

 

donde "n" es el tamaño de la muestra (número de mediciones) y " " es la función de autocorrelación de los datos (téngase en cuenta que la expresión entre corchetes es simplemente uno menos la autocorrelación promedio esperada para las lecturas). Si la función de autocorrelación consta de valores positivos, entonces la estimación de la varianza (y su raíz cuadrada, la desviación estándar) se sesgará a un nivel bajo. Es decir, la variabilidad real de los datos será mayor que la indicada por una varianza no corregida o un cálculo de desviación estándar. Es esencial reconocer que, si esta expresión se va a usar para corregir el sesgo, al dividir la estimación   por la cantidad entre paréntesis de arriba, entonces la función de autocorrelación debe ser conocida "analíticamente", no a través de la estimación de los datos. Esto se debe a que la citada función de autocorrelacion estimada siempre estará sesgada.[6]

Ejemplo de sesgo en la desviación estándar

Para ilustrar la magnitud del sesgo en la desviación estándar, considérese un conjunto de datos que consiste en lecturas secuenciales de un instrumento que usa un filtro digital específico, cuya función de autocorrelación se sabe que está dada por

 

donde α es el parámetro del filtro, y toma valores de cero a la unidad. Así, la función es positiva y disminuye geométricamente.

 
Sesgo en la desviación estándar para datos autocorrelacionados

La figura muestra la relación entre la desviación estándar estimada y su valor conocido (que puede calcularse analíticamente para este filtro digital), para varias configuraciones de α en función del tamaño de la muestra n. Cambiar α altera la relación de reducción de varianza del filtro, que se sabe que es

 

de modo que los valores más pequeños de α den como resultado una mayor reducción de la varianza o "suavizado". El sesgo se indica mediante valores en el eje vertical diferentes de la unidad; es decir, si no hubiera sesgo, la proporción entre la desviación estándar estimada y la conocida sería la unidad. Claramente, para tamaños de muestra modestos puede haber un sesgo significativo (un factor de dos o más).

Varianza de la media

A menudo es interesante estimar la varianza o desviación estándar de una "media" estimada en lugar de la varianza de una población. Cuando los datos están autocorrelacionados, esto tiene un efecto directo en la varianza teórica de la media de la muestra, que es:[7]

 

La varianza de la media muestral puede entonces estimarse sustituyendo una estimación de σ2. Una estimación de este tipo se puede obtener de la ecuación para E [s2] dada anteriormente. Primero deben definirse las siguientes constantes, asumiendo, una vez más, una función de autocorrelación conocida:

 
 

de lo que se sigue

 

Esto dice que el valor esperado de la cantidad obtenida al dividir la varianza de la muestra observada por el factor de corrección   proporciona una estimación no sesgada de la varianza. Del mismo modo, reescribiendo la expresión anterior para la varianza de la media,

 

y sustituyendo la estimación por   resulta:[8]

 

que es un estimador no sesgado de la varianza de la media en términos de la varianza de la muestra observada y de las cantidades conocidas. Téngase en cuenta que, si las autocorrelaciones   son idénticamente cero, esta expresión se reduce al resultado conocido de la varianza de la media para los datos independientes. El efecto del operador del valor esperado en estas expresiones es que la igualdad se mantiene en la media (es decir, en el promedio).

Estimación de la desviación estándar de la población

Al tener las expresiones anteriores que involucran la varianza de la población, y una estimación de la media de esa población, parece lógico simplemente tomar la raíz cuadrada de estas expresiones para obtener estimaciones no sesgadas de las respectivas desviaciones estándar. Sin embargo, es el caso de que los valores esperados sean integrales,

 

En su lugar, supóngase que existe una función θ tal que se puede escribir un estimador no sesgado de la desviación estándar

 

y θ depende del tamaño de la muestra n y de ,a función de autocorrelación. En el caso de datos no independientes (distribuidos normalmente e independientemente), el radicando es la unidad y θ es solo la función c4 dada en la primera sección anterior. Al igual que con c4, θ se acerca a la unidad a medida que aumenta el tamaño de la muestra (al igual que γ1).

Se puede demostrar a través de una simulación que ignorar θ (es decir, tomarlo como unidad) y usar

 

elimina todo menos un pequeño porcentaje del sesgo causado por la autocorrelación, lo que lo convierte en un estimador de sesgo "reducido", en lugar de un estimador "no" sesgado. En situaciones prácticas de medición, esta reducción en el sesgo puede ser significativa y útil, incluso si queda un sesgo relativamente pequeño. La figura anterior, que muestra un ejemplo del sesgo en la desviación estándar frente al tamaño de la muestra, se basa en esta aproximación; el sesgo real sería algo mayor que el indicado en esos gráficos, ya que no se incluye el sesgo de transformación θ.

Estimación de la desviación estándar de la media

La varianza no sesgada de la media en términos de la varianza de la población y de la función de autocorrelación viene dada por:

 

y como no hay valores esperados aquí, en este caso se puede tomar la raíz cuadrada, de modo que:

 

Al utilizar la expresión de estimación imparcial anterior para σ, se obtiene una estimación de la desviación estándar de la media:

 

Si los datos son no independientes, de modo que la función de autocorrelación se desvanece, esto se reduce a

 

En presencia de una función de autocorrelación distinta de cero, ignorar la función θ como antes conduce a un estimador de sesgo "reducido":

 

lo que nuevamente puede demostrarse que permite eliminar la mayor parte del sesgo.

Véase también

Referencias

  1. Ben W. Bolch, "More on unbiased estimation of the standard deviation", The American Statistician, 22(3), p. 27 (1968)
  2. Duncan, A. J., Quality Control and Industrial Statistics 4th Ed., Irwin (1974) ISBN 0-256-01558-9, p.139
  3. * N.L. Johnson, S. Kotz, and N. Balakrishnan, Continuous Univariate Distributions, Volume 1, 2nd edition, Wiley and sons, 1994. ISBN 0-471-58495-9. Chapter 13, Section 8.2
  4. Richard M. Brugger, "A Note on Unbiased Estimation of the Standard Deviation", The American Statistician (23) 4 p. 32 (1969)
  5. Law and Kelton, Simulation Modeling and Analysis, 2nd Ed. McGraw-Hill (1991), p.284, ISBN 0-07-036698-5. Esta expresión se puede derivar de su fuente original en Anderson, The Statistical Analysis of Time Series, Wiley (1971), ISBN 0-471-04745-7, p.448, Equation 51.
  6. Law and Kelton, p.286. This bias is quantified in Anderson, p.448, Equations 52–54.
  7. Law and Kelton, p.285. Esta ecuación puede derivarse del teorema 8.2.3 de Anderson. También aparece en Box, Jenkins, Reinsel, Time Series Analysis: Forecasting and Control, 4th Ed. Wiley (2008), ISBN 978-0-470-27284-8, p.31.
  8. Law and Kelton, p.285
  • Douglas C. Montgomery y George C. Runger, Estadística Aplicada y Probabilidad para Ingenieros , tercera edición, Wiley and sons, 2003. (ver Secciones 7 y ndash; 2.2 y 16 y ndash; 5)

Enlaces externos

  • que muestra el PDF de Helmert del cual se derivan los factores de corrección de sesgo.
  • Demostración de la simulación de Monte-Carlo para una estimación no sesgada de la desviación estándar
  • ¿Qué son los gráficos de control de variables?
  •   Datos: Q7882386

estimación, desviación, estándar, sesgada, estadística, particular, estadística, teórica, estimación, desviación, estándar, sesgada, cálculo, valor, estimado, desviación, estándar, población, valores, obtenida, partir, muestra, estadística, medida, dispersión,. En estadistica y en particular en estadistica teorica la estimacion de la desviacion estandar no sesgada es el calculo de un valor estimado de la desviacion estandar de una poblacion de valores obtenida a partir de una muestra estadistica una medida de dispersion de tal manera que la esperanza matematica obtenida del calculo sea igual a su valor verdadero Excepto en algunas situaciones importantes que se describen mas adelante la tarea tiene poca relevancia para las aplicaciones estadisticas ya que su necesidad se evita mediante procedimientos estandar como el uso del contraste de hipotesis y de intervalos de confianza o mediante el uso de inferencia bayesiana Sin embargo para la teoria estadistica proporciona un problema que sirve de ejemplo en el contexto de la estimacion estadistica que es simple de exponer y cuyos resultados no se pueden obtener de forma cerrada Tambien proporciona un ejemplo en el que imponer el requisito de ausencia de sesgo estadistico podria verse como un simple inconveniente sin un beneficio real Indice 1 Trasfondo 2 Correccion del sesgo 2 1 Resultados para la distribucion normal 2 2 Regla aproximada para estimar el sesgo de la distribucion normal 2 3 Otras distribuciones 3 Efecto de la autocorrelacion correlacion serial 3 1 Ejemplo de sesgo en la desviacion estandar 3 2 Varianza de la media 3 3 Estimacion de la desviacion estandar de la poblacion 3 4 Estimacion de la desviacion estandar de la media 4 Vease tambien 5 Referencias 6 Enlaces externosTrasfondo EditarEn estadistica la desviacion tipica de una poblacion de numeros a menudo se estima a partir de una muestra extraida de la poblacion Entonces se habla de la desviacion estandar de la muestra que se define por s i 1 n x i x 2 n 1 displaystyle s sqrt frac sum i 1 n x i overline x 2 n 1 donde x 1 x 2 x n displaystyle x 1 x 2 ldots x n es la muestra formalmente las realizaciones de una variable aleatoria X y x displaystyle overline x es su media muestral Una forma de ver que se produce un sesgo estadistico de la desviacion estandar de la poblacion es suponer que el resultado de s2 posee un sesgo estadistico subyacente de la varianza s2 de la poblacion si existe esa varianza y se extraen los valores de la muestra independientemente de que se haga con reemplazo La raiz cuadrada es una funcion no lineal y solo las funciones lineales son conmutativas al evaluar la expectativa de un suceso Como la raiz cuadrada es una funcion estrictamente concava segun la desigualdad de Jensen se deduce que la raiz cuadrada de la varianza de la muestra es una subestimacion de su valor El uso de n amp minus 1 en lugar de n en la formula para la varianza de la muestra se conoce como correccion de Bessel que permite corregir el sesgo en la estimacion de la varianza de la poblacion y algunos pero no todos sesgos en la estimacion de la desviacion estandar de la muestra No es posible encontrar una estimacion de la desviacion estandar que sea imparcial para todas las distribuciones de la poblacion ya que el sesgo depende de cada distribucion en particular Gran parte de los apartados siguientes se relacionan con la estimacion no sesgada suponiendo una distribucion normal Correccion del sesgo EditarResultados para la distribucion normal Editar Factor de correccion c4 frente al tamano de la muestra n Cuando la variable aleatoria esta normalmente distribuida existe una correccion menor para eliminar el sesgo Para deducir esta correccion ha de tenerse en cuenta que una variable X normalmente distribuida segun el teorema de Cochran implica que n 1 s 2 s 2 displaystyle n 1 s 2 sigma 2 tiene una distribucion x con n 1 grados de libertad y por lo tanto su raiz cuadrada n 1 s s displaystyle sqrt n 1 s sigma tiene una distribucion x con n 1 grados de libertad En consecuencia calculando el valor esperado de esta ultima expresion y reorganizando las constantes E s c 4 n s displaystyle operatorname E s c 4 n sigma donde el factor de correccion c4 n es la media de la escala de la distribucion chi con n 1 grados de libertad m 1 n 1 n 1 displaystyle mu 1 n 1 sqrt n 1 El resultado depende del tamano de la muestra n y se obtiene de la siguiente manera 1 c 4 n 2 n 1 G n 2 G n 1 2 1 1 4 n 7 32 n 2 19 128 n 3 O n 4 displaystyle c 4 n sqrt frac 2 n 1 frac Gamma left frac n 2 right Gamma left frac n 1 2 right 1 frac 1 4n frac 7 32n 2 frac 19 128n 3 O n 4 donde G es la funcion gamma Se puede obtener un estimador sin sesgo de s al dividir s por c4 n A medida que n crece se acerca a 1 e incluso para valores mas pequenos la correccion es menor La figura muestra una grafica de c4 n con respecto al tamano de muestra La siguiente tabla muestra valores numericos de c4 y expresiones algebraicas para algunos valores de n Se pueden encontrar tablas mas completas en la mayoria de los libros de texto sobre control estadistico de procesos Tamano de la muestra Expresion de c4 Valor numerico2 2 p displaystyle sqrt frac 2 pi 0 79788456083 p 2 displaystyle frac sqrt pi 2 0 88622692554 2 2 3 p displaystyle 2 sqrt frac 2 3 pi 0 92131773195 3 4 p 2 displaystyle frac 3 4 sqrt frac pi 2 0 93998560306 8 3 2 5 p displaystyle frac 8 3 sqrt frac 2 5 pi 0 95153286197 5 3 p 16 displaystyle frac 5 sqrt 3 pi 16 0 95936878918 16 5 2 7 p displaystyle frac 16 5 sqrt frac 2 7 pi 0 96503045619 35 p 64 displaystyle frac 35 sqrt pi 64 0 969310699810 128 105 2 p displaystyle frac 128 105 sqrt frac 2 pi 0 9726592741100 0 99747797611000 0 999749781110000 0 99997499782k 2 p 2 k 1 2 2 k 2 k 1 2 2 k 2 displaystyle sqrt frac 2 pi 2k 1 frac 2 2k 2 k 1 2 2k 2 2k 1 p k 2 k 1 2 2 k 1 k 1 2 displaystyle sqrt frac pi k frac 2k 1 2 2k 1 k 1 2 Es importante tener en cuenta que esta correccion solo produce un estimador imparcial para la X distribuida de manera normal e independiente Cuando se cumple esta condicion otro resultado de s que involucra a c4 n es que el error estandar de s es 2 3 s 1 c 4 2 displaystyle sigma sqrt 1 c 4 2 mientras que el error estandar del estimador no sesgado es s c 4 2 1 displaystyle sigma sqrt c 4 2 1 Regla aproximada para estimar el sesgo de la distribucion normal Editar Si el calculo de la funcion c4 n puede parecer demasiado dificil existe una simple regla del pulgar 4 para estimarla s 1 n 1 5 i 1 n x i x 2 displaystyle hat sigma sqrt frac 1 n 1 5 sum i 1 n x i overline x 2 La formula difiere de la expresion habitual de s2 solo por tener n 1 5 en lugar de n 1 en el denominador Esta expresion es solo aproximada de hecho la formula exacta es E s s 1 1 16 n 2 3 16 n 3 O n 4 displaystyle operatorname E left hat sigma right sigma cdot left 1 frac 1 16n 2 frac 3 16n 3 O n 4 right Sin embargo la diferencia en el sesgo obtenido con la regla aproximada es relativamente pequena por ejemplo para n 3 es igual al 1 3 y para n 9 la diferencia ya es menor del 0 1 Otras distribuciones Editar En los casos en que los datos estadisticamente independientes son modelados por una familia parametrica de distribuciones diferentes de una distribucion normal la desviacion estandar de la poblacion si existe sera una funcion de los parametros del modelo Un enfoque general para la estimacion seria determinar la maxima verosimilitud Alternativamente puede ser posible usar el teorema de Rao Blackwell como un metodo para encontrar una buena estimacion de la desviacion estandar En ningun caso las estimaciones obtenidas generalmente seran no sesgadas Basicamente podrian obtenerse ajustes teoricos para obtener estimaciones no sesgadas pero a diferencia del caso de la distribucion normal casi siempre dependerian de los parametros estimados Si el requisito es simplemente reducir el sesgo de una desviacion estandar estimada en lugar de eliminarlo por completo entonces hay dos enfoques practicos disponibles ambos dentro del contexto del remuestreo que se denominan jackknife y bootstrapping Ambas tecnicas se pueden aplicar a estimaciones basadas en parametros de la desviacion estandar o a la propia desviacion estandar de la muestra Para distribuciones no normales una formula aproximada hasta O n 1 para el estimador no sesgado de la desviacion estandar es s 1 n 1 5 1 4 g 2 i 1 n x i x 2 displaystyle hat sigma sqrt frac 1 n 1 5 tfrac 1 4 gamma 2 sum i 1 n left x i overline x right 2 donde g2 denota la curtosis de la poblacion El exceso de curtosis se puede conocer de antemano para ciertas distribuciones o se puede estimar a partir de los datos Efecto de la autocorrelacion correlacion serial EditarComo ya se ha senalado los principios anteriores solo se aplican a datos estadisticamente independientes Sin embargo los datos del mundo real a menudo no cumplen con este requisito y pueden estar autocorrelacionados caracteristica tambien conocida como correlacion serial Por ejemplo las lecturas sucesivas de un instrumento de medicion que incorpora algun tipo de proceso de suavizado mas correctamente filtrado de paso bajo se autocorrelacionaran ya que cualquier valor en particular se calcula a partir de una combinacion de las lecturas anteriores y posteriores Las estimaciones de la varianza y la desviacion estandar de los datos autocorrelacionados estaran sesgadas El valor esperado de la varianza de la muestra es 5 E s 2 s 2 1 2 n 1 k 1 n 1 1 k n r k displaystyle rm E left s 2 right sigma 2 left 1 frac 2 n 1 sum k 1 n 1 left 1 frac k n right rho k right donde n es el tamano de la muestra numero de mediciones y r k displaystyle rho k es la funcion de autocorrelacion de los datos tengase en cuenta que la expresion entre corchetes es simplemente uno menos la autocorrelacion promedio esperada para las lecturas Si la funcion de autocorrelacion consta de valores positivos entonces la estimacion de la varianza y su raiz cuadrada la desviacion estandar se sesgara a un nivel bajo Es decir la variabilidad real de los datos sera mayor que la indicada por una varianza no corregida o un calculo de desviacion estandar Es esencial reconocer que si esta expresion se va a usar para corregir el sesgo al dividir la estimacion s 2 displaystyle s 2 por la cantidad entre parentesis de arriba entonces la funcion de autocorrelacion debe ser conocida analiticamente no a traves de la estimacion de los datos Esto se debe a que la citada funcion de autocorrelacion estimada siempre estara sesgada 6 Ejemplo de sesgo en la desviacion estandar Editar Para ilustrar la magnitud del sesgo en la desviacion estandar considerese un conjunto de datos que consiste en lecturas secuenciales de un instrumento que usa un filtro digital especifico cuya funcion de autocorrelacion se sabe que esta dada por r k 1 a k displaystyle rho k 1 alpha k donde a es el parametro del filtro y toma valores de cero a la unidad Asi la funcion es positiva y disminuye geometricamente Sesgo en la desviacion estandar para datos autocorrelacionados La figura muestra la relacion entre la desviacion estandar estimada y su valor conocido que puede calcularse analiticamente para este filtro digital para varias configuraciones de a en funcion del tamano de la muestra n Cambiar a altera la relacion de reduccion de varianza del filtro que se sabe que es V R R a 2 a displaystyle rm VRR frac alpha 2 alpha de modo que los valores mas pequenos de a den como resultado una mayor reduccion de la varianza o suavizado El sesgo se indica mediante valores en el eje vertical diferentes de la unidad es decir si no hubiera sesgo la proporcion entre la desviacion estandar estimada y la conocida seria la unidad Claramente para tamanos de muestra modestos puede haber un sesgo significativo un factor de dos o mas Varianza de la media Editar A menudo es interesante estimar la varianza o desviacion estandar de una media estimada en lugar de la varianza de una poblacion Cuando los datos estan autocorrelacionados esto tiene un efecto directo en la varianza teorica de la media de la muestra que es 7 V a r x s 2 n 1 2 k 1 n 1 1 k n r k displaystyle rm Var left overline x right frac sigma 2 n left 1 2 sum k 1 n 1 left 1 frac k n right rho k right La varianza de la media muestral puede entonces estimarse sustituyendo una estimacion de s2 Una estimacion de este tipo se puede obtener de la ecuacion para E s2 dada anteriormente Primero deben definirse las siguientes constantes asumiendo una vez mas una funcion de autocorrelacion conocida g 1 1 2 n 1 k 1 n 1 1 k n r k displaystyle gamma 1 equiv 1 frac 2 n 1 sum k 1 n 1 left 1 frac k n right rho k g 2 1 2 k 1 n 1 1 k n r k displaystyle gamma 2 equiv 1 2 sum k 1 n 1 left 1 frac k n right rho k de lo que se sigue E s 2 s 2 g 1 E s 2 g 1 s 2 displaystyle rm E left s 2 right sigma 2 gamma 1 Rightarrow rm E left frac s 2 gamma 1 right sigma 2 Esto dice que el valor esperado de la cantidad obtenida al dividir la varianza de la muestra observada por el factor de correccion g 1 displaystyle gamma 1 proporciona una estimacion no sesgada de la varianza Del mismo modo reescribiendo la expresion anterior para la varianza de la media V a r x s 2 n g 2 displaystyle rm Var left overline x right frac sigma 2 n gamma 2 y sustituyendo la estimacion por s 2 displaystyle sigma 2 resulta 8 V a r x E s 2 g 1 g 2 n E s 2 n n 1 n g 2 1 displaystyle rm Var left overline x right rm E left frac s 2 gamma 1 left frac gamma 2 n right right rm E left frac s 2 n left frac n 1 frac n gamma 2 1 right right que es un estimador no sesgado de la varianza de la media en terminos de la varianza de la muestra observada y de las cantidades conocidas Tengase en cuenta que si las autocorrelaciones r k displaystyle rho k son identicamente cero esta expresion se reduce al resultado conocido de la varianza de la media para los datos independientes El efecto del operador del valor esperado en estas expresiones es que la igualdad se mantiene en la media es decir en el promedio Estimacion de la desviacion estandar de la poblacion Editar Al tener las expresiones anteriores que involucran la varianza de la poblacion y una estimacion de la media de esa poblacion parece logico simplemente tomar la raiz cuadrada de estas expresiones para obtener estimaciones no sesgadas de las respectivas desviaciones estandar Sin embargo es el caso de que los valores esperados sean integrales E s E s 2 s g 1 displaystyle rm E s neq sqrt rm E left s 2 right neq sigma sqrt gamma 1 En su lugar supongase que existe una funcion 8 tal que se puede escribir un estimador no sesgado de la desviacion estandar E s s 8 g 1 s s 8 g 1 displaystyle rm E s sigma theta sqrt gamma 1 Rightarrow hat sigma frac s theta sqrt gamma 1 y 8 depende del tamano de la muestra n y de a funcion de autocorrelacion En el caso de datos no independientes distribuidos normalmente e independientemente el radicando es la unidad y 8 es solo la funcion c4 dada en la primera seccion anterior Al igual que con c4 8 se acerca a la unidad a medida que aumenta el tamano de la muestra al igual que g1 Se puede demostrar a traves de una simulacion que ignorar 8 es decir tomarlo como unidad y usar E s s g 1 s s g 1 displaystyle rm E s approx sigma sqrt gamma 1 Rightarrow hat sigma approx frac s sqrt gamma 1 elimina todo menos un pequeno porcentaje del sesgo causado por la autocorrelacion lo que lo convierte en un estimador de sesgo reducido en lugar de un estimador no sesgado En situaciones practicas de medicion esta reduccion en el sesgo puede ser significativa y util incluso si queda un sesgo relativamente pequeno La figura anterior que muestra un ejemplo del sesgo en la desviacion estandar frente al tamano de la muestra se basa en esta aproximacion el sesgo real seria algo mayor que el indicado en esos graficos ya que no se incluye el sesgo de transformacion 8 Estimacion de la desviacion estandar de la media Editar La varianza no sesgada de la media en terminos de la varianza de la poblacion y de la funcion de autocorrelacion viene dada por V a r x s 2 n g 2 displaystyle rm Var left overline x right frac sigma 2 n gamma 2 y como no hay valores esperados aqui en este caso se puede tomar la raiz cuadrada de modo que s x s n g 2 displaystyle sigma overline x frac sigma sqrt n sqrt gamma 2 Al utilizar la expresion de estimacion imparcial anterior para s se obtiene una estimacion de la desviacion estandar de la media s x s 8 n g 2 g 1 displaystyle hat sigma overline x frac s theta sqrt n frac sqrt gamma 2 sqrt gamma 1 Si los datos son no independientes de modo que la funcion de autocorrelacion se desvanece esto se reduce a s x s c 4 n displaystyle hat sigma overline x frac s c 4 sqrt n En presencia de una funcion de autocorrelacion distinta de cero ignorar la funcion 8 como antes conduce a un estimador de sesgo reducido s x s n g 2 g 1 s n n 1 n g 1 1 displaystyle hat sigma overline x approx frac s sqrt n frac sqrt gamma 2 sqrt gamma 1 frac s sqrt n sqrt frac n 1 frac n gamma 1 1 lo que nuevamente puede demostrarse que permite eliminar la mayor parte del sesgo Vease tambien EditarCorreccion de Bessel Estimacion de matrices de covarianza Media y covarianza muestralesReferencias Editar Ben W Bolch More on unbiased estimation of the standard deviation The American Statistician 22 3 p 27 1968 Duncan A J Quality Control and Industrial Statistics 4th Ed Irwin 1974 ISBN 0 256 01558 9 p 139 N L Johnson S Kotz and N Balakrishnan Continuous Univariate Distributions Volume 1 2nd edition Wiley and sons 1994 ISBN 0 471 58495 9 Chapter 13 Section 8 2 Richard M Brugger A Note on Unbiased Estimation of the Standard Deviation The American Statistician 23 4 p 32 1969 Law and Kelton Simulation Modeling and Analysis 2nd Ed McGraw Hill 1991 p 284 ISBN 0 07 036698 5 Esta expresion se puede derivar de su fuente original en Anderson The Statistical Analysis of Time Series Wiley 1971 ISBN 0 471 04745 7 p 448 Equation 51 Law and Kelton p 286 This bias is quantified in Anderson p 448 Equations 52 54 Law and Kelton p 285 Esta ecuacion puede derivarse del teorema 8 2 3 de Anderson Tambien aparece en Box Jenkins Reinsel Time Series Analysis Forecasting and Control 4th Ed Wiley 2008 ISBN 978 0 470 27284 8 p 31 Law and Kelton p 285 Douglas C Montgomery y George C Runger Estadistica Aplicada y Probabilidad para Ingenieros tercera edicion Wiley and sons 2003 ver Secciones 7 y ndash 2 2 y 16 y ndash 5 Enlaces externos EditarGrafico interactivo en Java que muestra el PDF de Helmert del cual se derivan los factores de correccion de sesgo Demostracion de la simulacion de Monte Carlo para una estimacion no sesgada de la desviacion estandar Que son los graficos de control de variables Datos Q7882386Obtenido de https es wikipedia org w index php title Estimacion de la desviacion estandar no sesgada amp oldid 128781248, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos