fbpx
Wikipedia

Varianza agrupada

En estadística, la varianza agrupada (también conocida como combinada, compuesta, o varianza general) es un método para estimar la varianza de varias poblaciones diferentes cuando la media de cada población puede ser diferente, pero se puede suponer que la varianza de cada población es la misma.

Bajo el supuesto de varianzas poblacionales iguales, la varianza muestral agrupada proporciona una estimación de la varianza con precisión más alta que las varianzas muestrales individuales. Esta mayor precisión puede llevar a un aumento de la potencia estadística cuando se usa en el contraste de hipótesis que comparan las poblaciones, como la prueba t de Student.

La raíz cuadrada de un estimador de varianza agrupada se conoce como desviación estándar agrupada (o también como combinada, compuesta o desviación estándar general).

Motivación

En estadística, muchas veces, los datos se recopilan para una variable dependiente y, en un rango de valores para la variable independiente x. Por ejemplo, la observación del consumo de combustible podría estudiarse en función de la velocidad del motor mientras la carga del motor se mantiene constante. Si, para lograr una varianza pequeña en y, se requieren numerosas pruebas repetidas para cada valor de x, el costo de la prueba puede volverse prohibitivo. Las estimaciones razonables de varianza se pueden determinar utilizando el principio de varianza agrupada después de repetir cada prueba en una x particular solo unas pocas veces.

Definición y cálculo

Definición

La varianza agrupada es una estimación de la varianza común fija   que subyace a varias poblaciones que poseen diferentes medias aritméticas.

Cálculo

Si las poblaciones están indexadas de acuerdo con  , entonces la varianza   agrupada puede ser calculada por la media ponderada

 

donde   es el tamaño de la muestra de la población   y la varianza es

  =  .

El uso de los factores de ponderación   en lugar de   proviene de la corrección de Bessel.

Variantes

La estimación de mínimos cuadrados no sesgada de  

 

y la estimación de probabilidad máxima sesgada

 

se utilizan en diferentes contextos. El primer indicador puede dar un   no sesgado para estimar   cuando los dos grupos comparten una variación de población igual. El último puede dar una   más estadísticamente eficiente para estimar   de forma parcial. Téngase en cuenta que las cantidades   en el lado derecho de ambas ecuaciones son las estimaciones no sesgadas.

Ejemplo

Considérese el siguiente conjunto de datos para y, obtenidos en varios niveles de la variable independiente x.

x y
1 31, 30, 29
2 42, 41, 40, 39
3 31, 28
4 23, 22, 21, 19, 18
5 21, 20, 19, 18,17

El número de ensayos, la media, la varianza y la desviación estándar se presentan en la siguiente tabla.

x n ymedia si2 si
1 3 30.0 1.0 1.0
2 4 40.5 1.67 1.29
3 2 29.5 4.5 2.12
4 5 20.6 4.3 2.07
5 5 19.0 2.5 1.58

Estas estadísticas representan la varianza y la desviación típica para cada subconjunto de datos en los diversos niveles de x. Si se puede asumir que los mismos fenómenos están generando errores experimentales en cada nivel de x, los datos anteriores se pueden "agrupar" para expresar una estimación única de varianza y desviación estándar. En cierto sentido, esto sugiere encontrar una varianza media o una desviación estándar entre los cinco resultados anteriores. Esta variación media se calcula ponderando los valores individuales con el tamaño del subconjunto para cada nivel de x. Así, la varianza agrupada se define por

 

donde n1, n2,. . ., nk son los tamaños de los subconjuntos de datos en cada nivel de la variable x, y s12, s22,. . ., sk2 son sus respectivas variaciones.

La varianza agrupada de los datos mostrados arriba es por lo tanto:

 

Efecto sobre la precisión

La varianza agrupada es una estimación cuando existe una correlación entre los conjuntos de datos agrupados o el promedio de los conjuntos de datos no es idéntico. Es menos precisa cuanto más distinta de cero sea la correlación o distante de los promedios entre los conjuntos de datos.

La variación de los datos para los conjuntos de datos que no se superponen es:

 

Donde la media se define como:

 

Dada una probabilidad máxima sesgada definida como:

 

Entonces, el error en la estimación de probabilidad máxima sesgada es:

 

Asumiendo que N es grande y tal que:

 

entonces el error en la estimación se reduce a:

 

O alternativamente:

 

Agregación de datos de desviación estándar

En lugar de estimar la desviación estándar agrupada, a continuación se describe la forma de agregar de forma exacta la desviación estándar cuando hay más información estadística disponible.

Estadísticas poblacionales

Las poblaciones de una serie de conjuntos, que pueden superponerse, se calculan simplemente de la siguiente manera:

 

Las poblaciones de conjuntos, que no se superponen, pueden calcularse de la siguiente manera:

 

Las desviaciones estándar de las subpoblaciones no superpuestas (XY = ∅) se pueden agregar de la siguiente manera si se conoce el tamaño (real o relativo entre sí) y las medias de cada una:

 

Por ejemplo, supóngase que se sabe que el hombre estadounidense promedio tiene una altura media de 70 pulgadas con una desviación estándar de tres pulgadas y que la mujer estadounidense promedio tiene una altura media de 65 pulgadas con una desviación estándar de dos pulgadas. También se asume que el número de hombres, N, es igual al número de mujeres. Entonces, la media y la desviación estándar de las alturas de los adultos estadounidenses podrían calcularse como

 

Para el caso más general de poblaciones no superpuestas M, X1 hasta XM, y población agregada  ,

 ,

donde

 

Si se conoce el tamaño (real o relativo entre sí), la media y la desviación estándar de dos poblaciones superpuestas para las poblaciones, así como su intersección, entonces la desviación estándar de la población general aún se puede calcular de la siguiente manera:

 

Si se agregan dos o más conjuntos de datos uno a uno, la desviación estándar del resultado se puede calcular si se conoce la desviación estándar de cada conjunto de datos y la covarianza entre cada par de conjuntos de datos:

 

Para el caso especial donde no existe una correlación entre ningún par de conjuntos de datos, entonces la relación se reduce a la raíz de la suma de cuadrados:

 

Estadísticas basadas en muestras

Las desviaciones estándar de submuestras no superpuestas (XY = ∅) se pueden agregar de la siguiente manera si se conocen el tamaño real y las medias de cada una de ellas:

 

Para el caso más general de los conjuntos de datos no superpuestos M, X1 hasta XM, y el conjunto de datos agregados  ,

 

donde

 

Si se conoce el tamaño, la media y la desviación estándar de dos muestras superpuestas para cada muestra, así como su intersección, la desviación estándar de la muestra agregada aún se puede calcular. En general,

 

Véase también

Referencias

  • Killeen PR (May 2005). «An alternative to null-hypothesis significance tests». Psychol Sci 16 (5): 345-53. PMC 1473027. PMID 15869691. doi:10.1111/j.0956-7976.2005.01538.x. 

Enlaces externos

  • IUPAC Gold Book - desviación estándar agrupada
  • También se refiere a la d de Cohen (en la página 6)
  •   Datos: Q7228635

varianza, agrupada, estadística, varianza, agrupada, también, conocida, como, combinada, compuesta, varianza, general, método, para, estimar, varianza, varias, poblaciones, diferentes, cuando, media, cada, población, puede, diferente, pero, puede, suponer, var. En estadistica la varianza agrupada tambien conocida como combinada compuesta o varianza general es un metodo para estimar la varianza de varias poblaciones diferentes cuando la media de cada poblacion puede ser diferente pero se puede suponer que la varianza de cada poblacion es la misma Bajo el supuesto de varianzas poblacionales iguales la varianza muestral agrupada proporciona una estimacion de la varianza con precision mas alta que las varianzas muestrales individuales Esta mayor precision puede llevar a un aumento de la potencia estadistica cuando se usa en el contraste de hipotesis que comparan las poblaciones como la prueba t de Student La raiz cuadrada de un estimador de varianza agrupada se conoce como desviacion estandar agrupada o tambien como combinada compuesta o desviacion estandar general Indice 1 Motivacion 2 Definicion y calculo 2 1 Definicion 2 2 Calculo 2 3 Variantes 3 Ejemplo 4 Efecto sobre la precision 5 Agregacion de datos de desviacion estandar 5 1 Estadisticas poblacionales 5 2 Estadisticas basadas en muestras 6 Vease tambien 7 Referencias 8 Enlaces externosMotivacion EditarEn estadistica muchas veces los datos se recopilan para una variable dependiente y en un rango de valores para la variable independiente x Por ejemplo la observacion del consumo de combustible podria estudiarse en funcion de la velocidad del motor mientras la carga del motor se mantiene constante Si para lograr una varianza pequena en y se requieren numerosas pruebas repetidas para cada valor de x el costo de la prueba puede volverse prohibitivo Las estimaciones razonables de varianza se pueden determinar utilizando el principio de varianza agrupada despues de repetir cada prueba en una x particular solo unas pocas veces Definicion y calculo EditarDefinicion Editar La varianza agrupada es una estimacion de la varianza comun fija s 2 displaystyle sigma 2 que subyace a varias poblaciones que poseen diferentes medias aritmeticas Calculo Editar Si las poblaciones estan indexadas de acuerdo con i 1 k displaystyle i 1 ldots k entonces la varianza s p 2 displaystyle s p 2 agrupada puede ser calculada por la media ponderada s p 2 i 1 k n i 1 s i 2 i 1 k n i 1 n 1 1 s 1 2 n 2 1 s 2 2 n k 1 s k 2 n 1 n 2 n k k displaystyle s p 2 frac sum i 1 k n i 1 s i 2 sum i 1 k n i 1 frac n 1 1 s 1 2 n 2 1 s 2 2 cdots n k 1 s k 2 n 1 n 2 cdots n k k donde n i displaystyle n i es el tamano de la muestra de la poblacion i displaystyle i y la varianza es s i 2 displaystyle s i 2 1 n i 1 j 1 n i y j y i 2 displaystyle frac 1 n i 1 sum j 1 n i left y j overline y i right 2 El uso de los factores de ponderacion n i 1 displaystyle n i 1 en lugar de n i displaystyle n i proviene de la correccion de Bessel Variantes Editar La estimacion de minimos cuadrados no sesgada de s 2 displaystyle sigma 2 s p 2 i 1 k n i 1 s i 2 i 1 k n i 1 displaystyle s p 2 frac sum i 1 k n i 1 s i 2 sum i 1 k n i 1 y la estimacion de probabilidad maxima sesgada s p 2 i 1 k n i 1 s i 2 i 1 k n i displaystyle s p 2 frac sum i 1 k n i 1 s i 2 sum i 1 k n i se utilizan en diferentes contextos El primer indicador puede dar un s p 2 displaystyle s p 2 no sesgado para estimar s 2 displaystyle sigma 2 cuando los dos grupos comparten una variacion de poblacion igual El ultimo puede dar una s p 2 displaystyle s p 2 mas estadisticamente eficiente para estimar s 2 displaystyle sigma 2 de forma parcial Tengase en cuenta que las cantidades s i 2 displaystyle s i 2 en el lado derecho de ambas ecuaciones son las estimaciones no sesgadas Ejemplo EditarConsiderese el siguiente conjunto de datos para y obtenidos en varios niveles de la variable independiente x x y1 31 30 292 42 41 40 393 31 284 23 22 21 19 185 21 20 19 18 17El numero de ensayos la media la varianza y la desviacion estandar se presentan en la siguiente tabla x n ymedia si2 si1 3 30 0 1 0 1 02 4 40 5 1 67 1 293 2 29 5 4 5 2 124 5 20 6 4 3 2 075 5 19 0 2 5 1 58Estas estadisticas representan la varianza y la desviacion tipica para cada subconjunto de datos en los diversos niveles de x Si se puede asumir que los mismos fenomenos estan generando errores experimentales en cada nivel de x los datos anteriores se pueden agrupar para expresar una estimacion unica de varianza y desviacion estandar En cierto sentido esto sugiere encontrar una varianza media o una desviacion estandar entre los cinco resultados anteriores Esta variacion media se calcula ponderando los valores individuales con el tamano del subconjunto para cada nivel de x Asi la varianza agrupada se define por s P 2 n 1 1 s 1 2 n 2 1 s 2 2 n k 1 s k 2 n 1 1 n 2 1 n k 1 displaystyle s P 2 frac n 1 1 s 1 2 n 2 1 s 2 2 cdots n k 1 s k 2 n 1 1 n 2 1 cdots n k 1 donde n1 n2 nk son los tamanos de los subconjuntos de datos en cada nivel de la variable x y s12 s22 sk2 son sus respectivas variaciones La varianza agrupada de los datos mostrados arriba es por lo tanto s p 2 2 764 displaystyle s p 2 2 764 Efecto sobre la precision EditarLa varianza agrupada es una estimacion cuando existe una correlacion entre los conjuntos de datos agrupados o el promedio de los conjuntos de datos no es identico Es menos precisa cuanto mas distinta de cero sea la correlacion o distante de los promedios entre los conjuntos de datos La variacion de los datos para los conjuntos de datos que no se superponen es s X 2 i N X i 1 s X i 2 N X i m X i 2 i N X i m X 2 i N X i 1 displaystyle begin aligned sigma X 2 amp frac left sum i left N X i 1 sigma X i 2 N X i mu X i 2 right left sum i N X i right mu X 2 right sum i N X i 1 end aligned Donde la media se define como m X i N X i m X i i N X i displaystyle begin aligned mu X amp frac left sum i N X i mu X i right sum i N X i end aligned Dada una probabilidad maxima sesgada definida como s p 2 i 1 k n i 1 s i 2 i 1 k n i displaystyle s p 2 frac sum i 1 k n i 1 s i 2 sum i 1 k n i Entonces el error en la estimacion de probabilidad maxima sesgada es E r r o r s p 2 s X 2 i N X i 1 s i 2 i N X i 1 i N X i 1 i N X i 1 s X i 2 N X i m X i 2 i N X i m X 2 displaystyle begin aligned Error s p 2 sigma X 2 3pt frac sum i N X i 1 s i 2 sum i N X i frac 1 sum i N X i 1 left sum i left N X i 1 sigma X i 2 N X i mu X i 2 right left sum i N X i right mu X 2 right end aligned Asumiendo que N es grande y tal que i N X i i N X i 1 displaystyle begin aligned sum i N X i approx sum i N X i 1 end aligned entonces el error en la estimacion se reduce a E i N X i m X i 2 i N X i m X 2 i N X i m X 2 i N X i m X i 2 i N X i displaystyle begin aligned E frac left sum i left N X i mu X i 2 right left sum i N X i right mu X 2 right sum i N X i 3pt mu X 2 frac sum i left N X i mu X i 2 right sum i N X i 3pt end aligned O alternativamente E i N X i m X i i N X i 2 i N X i m X i 2 i N X i i N X i m X i 2 i N X i i N X i m X i 2 i N X i 2 displaystyle begin aligned E left frac sum i N X i mu X i sum i N X i right 2 frac sum i left N X i mu X i 2 right sum i N X i 3pt frac left sum i N X i mu X i right 2 sum i N X i sum i left N X i mu X i 2 right left sum i N X i right 2 end aligned Agregacion de datos de desviacion estandar EditarEn lugar de estimar la desviacion estandar agrupada a continuacion se describe la forma de agregar de forma exacta la desviacion estandar cuando hay mas informacion estadistica disponible Estadisticas poblacionales Editar Las poblaciones de una serie de conjuntos que pueden superponerse se calculan simplemente de la siguiente manera N X Y N X N Y N X Y displaystyle begin aligned amp amp N X cup Y amp N X N Y N X cap Y end aligned Las poblaciones de conjuntos que no se superponen pueden calcularse de la siguiente manera X Y N X Y 0 N X Y N X N Y displaystyle begin aligned X cap Y varnothing amp Rightarrow amp N X cap Y amp 0 amp Rightarrow amp N X cup Y amp N X N Y end aligned Las desviaciones estandar de las subpoblaciones no superpuestas X Y se pueden agregar de la siguiente manera si se conoce el tamano real o relativo entre si y las medias de cada una m X Y N X m X N Y m Y N X N Y s X Y N X s X 2 N Y s Y 2 N X N Y N X N Y N X N Y 2 m X m Y 2 displaystyle begin aligned mu X cup Y amp frac N X mu X N Y mu Y N X N Y 3pt sigma X cup Y amp sqrt frac N X sigma X 2 N Y sigma Y 2 N X N Y frac N X N Y N X N Y 2 mu X mu Y 2 end aligned Por ejemplo supongase que se sabe que el hombre estadounidense promedio tiene una altura media de 70 pulgadas con una desviacion estandar de tres pulgadas y que la mujer estadounidense promedio tiene una altura media de 65 pulgadas con una desviacion estandar de dos pulgadas Tambien se asume que el numero de hombres N es igual al numero de mujeres Entonces la media y la desviacion estandar de las alturas de los adultos estadounidenses podrian calcularse como m N 70 N 65 N N 70 65 2 67 5 s 3 2 2 2 2 70 65 2 2 2 12 75 3 57 displaystyle begin aligned mu amp frac N cdot 70 N cdot 65 N N frac 70 65 2 67 5 3pt sigma amp sqrt frac 3 2 2 2 2 frac 70 65 2 2 2 sqrt 12 75 approx 3 57 end aligned Para el caso mas general de poblaciones no superpuestas M X1 hasta XM y poblacion agregada X i X i displaystyle scriptstyle X bigcup i X i m X i N X i m X i i N X i s X i N X i s X i 2 i N X i i lt j N X i N X j m X i m X j 2 i N X i 2 displaystyle begin aligned mu X amp frac sum i N X i mu X i sum i N X i 3pt sigma X amp sqrt frac sum i N X i sigma X i 2 sum i N X i frac sum i lt j N X i N X j mu X i mu X j 2 big sum i N X i big 2 end aligned donde X i X j i lt j displaystyle X i cap X j varnothing quad forall i lt j Si se conoce el tamano real o relativo entre si la media y la desviacion estandar de dos poblaciones superpuestas para las poblaciones asi como su interseccion entonces la desviacion estandar de la poblacion general aun se puede calcular de la siguiente manera m X Y 1 N X Y N X m X N Y m Y N X Y m X Y s X Y 1 N X Y N X s X 2 m X 2 N Y s Y 2 m Y 2 N X Y s X Y 2 m X Y 2 m X Y 2 displaystyle begin aligned mu X cup Y amp frac 1 N X cup Y left N X mu X N Y mu Y N X cap Y mu X cap Y right 3pt sigma X cup Y amp sqrt frac 1 N X cup Y left N X sigma X 2 mu X 2 N Y sigma Y 2 mu Y 2 N X cap Y sigma X cap Y 2 mu X cap Y 2 right mu X cup Y 2 end aligned Si se agregan dos o mas conjuntos de datos uno a uno la desviacion estandar del resultado se puede calcular si se conoce la desviacion estandar de cada conjunto de datos y la covarianza entre cada par de conjuntos de datos s X i s X i 2 2 i j cov X i X j displaystyle sigma X sqrt sum i sigma X i 2 2 sum i j operatorname cov X i X j Para el caso especial donde no existe una correlacion entre ningun par de conjuntos de datos entonces la relacion se reduce a la raiz de la suma de cuadrados cov X i X j 0 i lt j s X i s X i 2 displaystyle begin aligned amp operatorname cov X i X j 0 quad forall i lt j Rightarrow amp sigma X sqrt sum i sigma X i 2 end aligned Estadisticas basadas en muestras Editar Las desviaciones estandar de submuestras no superpuestas X Y se pueden agregar de la siguiente manera si se conocen el tamano real y las medias de cada una de ellas m X Y 1 N X Y N X m X N Y m Y s X Y 1 N X Y 1 N X 1 s X 2 N X m X 2 N Y 1 s Y 2 N Y m Y 2 N X N Y m X Y 2 displaystyle begin aligned mu X cup Y amp frac 1 N X cup Y left N X mu X N Y mu Y right 3pt sigma X cup Y amp sqrt frac 1 N X cup Y 1 left N X 1 sigma X 2 N X mu X 2 N Y 1 sigma Y 2 N Y mu Y 2 N X N Y mu X cup Y 2 right end aligned Para el caso mas general de los conjuntos de datos no superpuestos M X1 hasta XM y el conjunto de datos agregados X i X i displaystyle scriptstyle X bigcup i X i m X 1 i N X i i N X i m X i s X 1 i N X i 1 i N X i 1 s X i 2 N X i m X i 2 i N X i m X 2 displaystyle begin aligned mu X amp frac 1 sum i N X i left sum i N X i mu X i right 3pt sigma X amp sqrt frac 1 sum i N X i 1 left sum i left N X i 1 sigma X i 2 N X i mu X i 2 right left sum i N X i right mu X 2 right end aligned donde X i X j i lt j displaystyle X i cap X j varnothing quad forall i lt j Si se conoce el tamano la media y la desviacion estandar de dos muestras superpuestas para cada muestra asi como su interseccion la desviacion estandar de la muestra agregada aun se puede calcular En general m X Y 1 N X Y N X m X N Y m Y N X Y m X Y s X Y N X 1 s X 2 N X m X 2 N Y 1 s Y 2 N Y m Y 2 N X Y 1 s X Y 2 N X Y m X Y 2 N X N Y N X Y m X Y 2 N X Y 1 displaystyle begin aligned mu X cup Y amp frac 1 N X cup Y left N X mu X N Y mu Y N X cap Y mu X cap Y right 3pt sigma X cup Y amp sqrt frac N X 1 sigma X 2 N X mu X 2 N Y 1 sigma Y 2 N Y mu Y 2 N X cap Y 1 sigma X cap Y 2 N X cap Y mu X cap Y 2 N X N Y N X cap Y mu X cup Y 2 N X cup Y 1 end aligned Vease tambien Editard de Cohen tamano del efecto Distribucion T de Hotelling Grado de libertad agregado Gran mediaReferencias EditarKilleen PR May 2005 An alternative to null hypothesis significance tests Psychol Sci 16 5 345 53 PMC 1473027 PMID 15869691 doi 10 1111 j 0956 7976 2005 01538 x Enlaces externos EditarIUPAC Gold Book desviacion estandar agrupada Pooled Standard Deviation Tambien se refiere a la d de Cohen en la pagina 6 Datos Q7228635 Obtenido de https es wikipedia org w index php title Varianza agrupada amp oldid 145069377, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos