fbpx
Wikipedia

Error cuadrático medio

En estadística, el error cuadrático medio (ECM) de un estimador mide el promedio de los errores al cuadrado, es decir, la diferencia entre el estimador y lo que se estima. El ECM es una función de riesgo, correspondiente al valor esperado de la pérdida del error al cuadrado o pérdida cuadrática. La diferencia se produce debido a la aleatoriedad o porque el estimador no tiene en cuenta la información que podría producir una estimación más precisa.[1]

El ECM es el segundo momento (sobre el origen) del error, y por lo tanto incorpora tanto la varianza del estimador así como su sesgo. Para un estimador insesgado, el ECM es la varianza del estimador. Al igual que la varianza, el ECM tiene las mismas unidades de medida que el cuadrado de la cantidad que se estima. En una analogía con la desviación estándar, tomando la raíz cuadrada del ECM produce el error de la raíz cuadrada de la media o la desviación de la raíz cuadrada media (RMSE o RMSD), que tiene las mismas unidades que la cantidad que se estima; para un estimador insesgado, el RMSE es la raíz cuadrada de la varianza, conocida como la desviación estándar.

Definición y propiedades básicas

Si   es un vector de n predicciones y   es el vector de los verdaderos valores, entonces el (estimado) ECM del predictor es:

 

Esta es una cantidad conocida, calculado dada una muestra particular (y por lo tanto es dependiente de la muestra).

El ECM de un estimador   con respecto al parámetro desconocido   se define como

 

Esta definición depende del parámetro desconocido, y el ECM en este sentido es una propiedad de un estimador (de un método de obtención de una estimación).

El ECM es igual a la suma de la varianza y el cuadrado sesgo del estimador o de las predicciones. En el caso del ECM de un estimador,[2]

 

Así pues, el ECM evalúa la calidad de un estimador o conjunto de predicciones en cuanto a su variación y el grado de sesgo.

Desde ECM es una expectativa, no es técnicamente una variable aleatoria, pero va a estar sujeto a error de estimación cuando se calcula para un estimador particular de   con valor verdadero desconocido. Por lo tanto, cualquier estimación del ECM sobre la base de un parámetro estimado es de hecho una variable aleatoria.

Demostración

 

Regresión

En el análisis de regresión, el término de error cuadrático medio se utiliza a veces para referirse a la estimación insesgada de la varianza del error: la suma residual de cuadrados, dividida por el número de grados de libertad. Esta definición para una cantidad calculada conocida, difiere de la definición anterior para el ECM calculado para un predictor en que se utiliza un denominador diferente. El denominador es el tamaño reducido de la muestra por el número de parámetros del modelo estimado a partir de los mismos datos, (np) para p regresores o (np-1) si se utiliza una intercepción.[3]​ Para más detalles, ver los errores y los residuos en las estadísticas. Tenga en cuenta que, aunque el ECM no es un estimador insesgado de la varianza del error, es coherente, dada la consistencia del predictor.

También en el análisis de regresión, "error cuadrático medio", se refiere a menudo al error medio de predicción cuadrado o "fuera de la media muestral de error al cuadrado", puede referirse a la media de las desviaciones al cuadrado de las predicciones de los verdaderos valores, a lo largo un espacio fuera de la muestra de ensayo, generado por un modelo estimado durante un espacio de muestra particular. Esto también es una, cantidad calculada conocida, y varía por muestra y por espacio de ensayo fuera de la muestra.

Ejemplos

Media

Supongamos que tenemos una muestra aleatoria de tamaño n de una población, . Supongamos que las unidades de muestra se eligieron con el reemplazo. Es decir, las n unidades se seleccionan uno a la vez, y las unidades previamente seleccionadas siguen siendo elegibles para ser seleccionados para todo n empates. El estimador usual de la media es el promedio de la muestra

 

el cual tiene un valor esperado igual a la media real μ (por lo que es imparcial) y un error cuadrático medio de

 

donde   es la varianza de la población.

Para una distribución gaussiana este es el mejor estimador insesgado (es decir, que tiene el MSE más bajo entre todos los estimadores insesgados), pero no, por ejemplo, para una distribución uniforme .

Varianza

El estimador usual para la varianza es la varianza muestral :

 

Este estimador es insesgado, es decir, su valor esperado es  . Su ECM es[4]

 

donde   es el cuarto momento central de la distribución o de la población y   es el exceso de curtosis.

Sin embargo, se puede utilizar otros estimadores de   que son proporcionales a   , Y una elección adecuada siempre puede dar un error cuadrático medio menor. Si definimos

 

a continuación, el ECM es

 

Esto se minimiza cuando

 

Para una distribución gaussiana, donde  . Esto significa que el ECM se minimiza al dividir la suma por  . El exceso de curtosis es mínimo  , [a] que se consigue mediante una distribución de Bernoulli con p = 1/2 (un tirón de la moneda), y el ECM se reduce al mínimo para  . Así que no importa lo que la curtosis, obtenemos una estimación "mejor" (en el sentido de tener un ECM inferior) reduciendo el tamaño de la perito imparcial un poco; este es un ejemplo sencillo de un estimador de la contracción : uno "encoge" el estimador hacia cero (escalas por el estimador no sesgado).

Además, mientras que la varianza muestral corregida es el mejor estimador insesgado (error cuadrático medio mínimo entre los estimadores no sesgados) de la varianza para distribuciones gaussianas, si la distribución no es gaussiana entonces incluso entre estimadores no sesgados, el mejor estimador insesgado de la varianza puede no ser  

Distribución gaussiana

a tabla siguiente da varios estimadores de los verdaderos parámetros de la población,μ y σ2, para el caso de Gauss.[5]

True value Estimator Mean squared error
θ = μ   = El estimador insesgado de la media de la población,    
θ = σ2   = El estimador insesgado de la varianza de la población,    
θ = σ2   = El estimador sesgado de la varianza de la población,    
θ = σ2   = El estimador sesgado de la varianza de la población,    

Tenga en cuenta que:

  1. Las MSEs mostradas para los estimadores de varianza asumen que  ( (N (medido por MSE): el MSE de   es mayor que   or  .
  2. Los estimadores con la variación total más pequeña pueden producir estimaciones sesgadas:   típicamente subestima σ2 por  

Referencias

  1. Lehmann, E. L.; Casella, George (1998). Theory of Point Estimation (2nd edición). Nueva York: Springer. ISBN 0-387-98502-6. MR 1639875. 
  2. Wackerly, Dennis; Scheaffer, William (2008). Mathematical Statistics with Applications (7 edición). Belmont, CA, USA: Thomson Higher Education. ISBN 0-495-38508-5. 
  3. Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill, 1960, page 288.
  4. Mood, A.; Graybill, F.; Boes, D. (1974). Introduction to the Theory of Statistics (3rd edición). McGraw-Hill. p. 229. 
  5. DeGroot, Morris H. (1980). Probability and Statistics (2nd edición). Addison-Wesley. 
  •   Datos: Q1940696

error, cuadrático, medio, este, artículo, sección, tiene, referencias, pero, necesita, más, para, complementar, verificabilidad, este, aviso, puesto, mayo, 2014, estadística, error, cuadrático, medio, estimador, mide, promedio, errores, cuadrado, decir, difere. Este articulo o seccion tiene referencias pero necesita mas para complementar su verificabilidad Este aviso fue puesto el 4 de mayo de 2014 En estadistica el error cuadratico medio ECM de un estimador mide el promedio de los errores al cuadrado es decir la diferencia entre el estimador y lo que se estima El ECM es una funcion de riesgo correspondiente al valor esperado de la perdida del error al cuadrado o perdida cuadratica La diferencia se produce debido a la aleatoriedad o porque el estimador no tiene en cuenta la informacion que podria producir una estimacion mas precisa 1 El ECM es el segundo momento sobre el origen del error y por lo tanto incorpora tanto la varianza del estimador asi como su sesgo Para un estimador insesgado el ECM es la varianza del estimador Al igual que la varianza el ECM tiene las mismas unidades de medida que el cuadrado de la cantidad que se estima En una analogia con la desviacion estandar tomando la raiz cuadrada del ECM produce el error de la raiz cuadrada de la media o la desviacion de la raiz cuadrada media RMSE o RMSD que tiene las mismas unidades que la cantidad que se estima para un estimador insesgado el RMSE es la raiz cuadrada de la varianza conocida como la desviacion estandar Indice 1 Definicion y propiedades basicas 2 Demostracion 3 Regresion 4 Ejemplos 4 1 Media 4 2 Varianza 4 3 Distribucion gaussiana 5 ReferenciasDefinicion y propiedades basicas EditarSi Y displaystyle hat Y es un vector de n predicciones y Y displaystyle Y es el vector de los verdaderos valores entonces el estimado ECM del predictor es ECM 1 n i 1 n Y i Y i 2 displaystyle operatorname ECM frac 1 n sum i 1 n hat Y i Y i 2 Esta es una cantidad conocida calculado dada una muestra particular y por lo tanto es dependiente de la muestra El ECM de un estimador 8 displaystyle hat theta con respecto al parametro desconocido 8 displaystyle theta se define como ECM 8 E 8 8 2 displaystyle operatorname ECM hat theta operatorname E big hat theta theta 2 big Esta definicion depende del parametro desconocido y el ECM en este sentido es una propiedad de un estimador de un metodo de obtencion de una estimacion El ECM es igual a la suma de la varianza y el cuadrado sesgo del estimador o de las predicciones En el caso del ECM de un estimador 2 ECM 8 Var 8 sesgo 8 8 2 displaystyle operatorname ECM hat theta operatorname Var hat theta left operatorname sesgo hat theta theta right 2 Asi pues el ECM evalua la calidad de un estimador o conjunto de predicciones en cuanto a su variacion y el grado de sesgo Desde ECM es una expectativa no es tecnicamente una variable aleatoria pero va a estar sujeto a error de estimacion cuando se calcula para un estimador particular de 8 displaystyle theta con valor verdadero desconocido Por lo tanto cualquier estimacion del ECM sobre la base de un parametro estimado es de hecho una variable aleatoria Demostracion EditarECM 8 E 8 8 2 E 8 E 8 E 8 8 2 E 8 E 8 2 2 8 E 8 E 8 8 E 8 8 2 E 8 E 8 2 2 E 8 E 8 E 8 8 E E 8 8 2 E 8 E 8 2 2 E 8 8 E 8 E 8 E 8 E 8 0 E E 8 8 2 E 8 E 8 2 E E 8 8 2 Var 8 sesgo 8 8 2 displaystyle begin aligned operatorname ECM hat theta equiv mathbb E hat theta theta 2 amp mathbb E left left hat theta mathbb E hat theta mathbb E hat theta theta right 2 right amp mathbb E left left hat theta mathbb E hat theta right 2 2 left hat theta mathbb E hat theta mathbb E hat theta theta right left mathbb E hat theta theta right 2 right amp mathbb E left left hat theta mathbb E hat theta right 2 right 2 mathbb E left hat theta mathbb E hat theta mathbb E hat theta theta right mathbb E left left mathbb E hat theta theta right 2 right amp mathbb E left left hat theta mathbb E hat theta right 2 right 2 mathbb E hat theta theta overbrace mathbb E hat theta mathbb E hat theta mathbb E hat theta mathbb E hat theta 0 mathbb E left left mathbb E hat theta theta right 2 right amp mathbb E left left hat theta mathbb E hat theta right 2 right mathbb E left left mathbb E hat theta theta right 2 right amp operatorname Var hat theta operatorname sesgo hat theta theta 2 end aligned Regresion EditarEn el analisis de regresion el termino de error cuadratico medio se utiliza a veces para referirse a la estimacion insesgada de la varianza del error la suma residual de cuadrados dividida por el numero de grados de libertad Esta definicion para una cantidad calculada conocida difiere de la definicion anterior para el ECM calculado para un predictor en que se utiliza un denominador diferente El denominador es el tamano reducido de la muestra por el numero de parametros del modelo estimado a partir de los mismos datos np para p regresores o np 1 si se utiliza una intercepcion 3 Para mas detalles ver los errores y los residuos en las estadisticas Tenga en cuenta que aunque el ECM no es un estimador insesgado de la varianza del error es coherente dada la consistencia del predictor Tambien en el analisis de regresion error cuadratico medio se refiere a menudo al error medio de prediccion cuadrado o fuera de la media muestral de error al cuadrado puede referirse a la media de las desviaciones al cuadrado de las predicciones de los verdaderos valores a lo largo un espacio fuera de la muestra de ensayo generado por un modelo estimado durante un espacio de muestra particular Esto tambien es una cantidad calculada conocida y varia por muestra y por espacio de ensayo fuera de la muestra Ejemplos EditarMedia Editar Supongamos que tenemos una muestra aleatoria de tamano n de una poblacion X 1 X n displaystyle X 1 dots X n Supongamos que las unidades de muestra se eligieron con el reemplazo Es decir las n unidades se seleccionan uno a la vez y las unidades previamente seleccionadas siguen siendo elegibles para ser seleccionados para todo n empates El estimador usual de la media es el promedio de la muestra X 1 n i 1 n X i displaystyle overline X frac 1 n sum i 1 n X i el cual tiene un valor esperado igual a la media real m por lo que es imparcial y un error cuadratico medio de ECM X E X m 2 s n 2 s 2 n displaystyle operatorname ECM overline X operatorname E overline X mu 2 left frac sigma sqrt n right 2 frac sigma 2 n donde s 2 displaystyle sigma 2 es la varianza de la poblacion Para una distribucion gaussiana este es el mejor estimador insesgado es decir que tiene el MSE mas bajo entre todos los estimadores insesgados pero no por ejemplo para una distribucion uniforme Varianza Editar El estimador usual para la varianza es la varianza muestral S n 1 2 1 n 1 i 1 n X i X 2 1 n 1 i 1 n X i 2 n X 2 displaystyle S n 1 2 frac 1 n 1 sum i 1 n left X i overline X right 2 frac 1 n 1 left sum i 1 n X i 2 n overline X 2 right Este estimador es insesgado es decir su valor esperado es s 2 displaystyle sigma 2 Su ECM es 4 ECM S n 1 2 1 n m 4 n 3 n 1 s 4 1 n g 2 2 n n 1 s 4 displaystyle begin aligned operatorname ECM S n 1 2 amp frac 1 n left mu 4 frac n 3 n 1 sigma 4 right amp frac 1 n left gamma 2 frac 2n n 1 right sigma 4 end aligned donde m 4 displaystyle mu 4 es el cuarto momento central de la distribucion o de la poblacion y g 2 m 4 s 4 3 displaystyle gamma 2 mu 4 sigma 4 3 es el exceso de curtosis Sin embargo se puede utilizar otros estimadores de s 2 displaystyle sigma 2 que son proporcionales a S n 1 2 displaystyle S n 1 2 Y una eleccion adecuada siempre puede dar un error cuadratico medio menor Si definimos S a 2 n 1 a S n 1 2 1 a i 1 n X i X 2 displaystyle begin aligned S a 2 amp frac n 1 a S n 1 2 amp frac 1 a sum i 1 n left X i overline X right 2 end aligned a continuacion el ECM es ECM S a 2 E n 1 a S n 1 2 s 2 2 n 1 n a 2 n 1 g 2 n 2 n s 4 2 n 1 a s 4 s 4 displaystyle begin aligned operatorname ECM S a 2 amp operatorname E left left frac n 1 a S n 1 2 sigma 2 right 2 right amp frac n 1 na 2 n 1 gamma 2 n 2 n sigma 4 frac 2 n 1 a sigma 4 sigma 4 end aligned Esto se minimiza cuando a n 1 g 2 n 2 n n n 1 n 1 n g 2 displaystyle a frac n 1 gamma 2 n 2 n n n 1 frac n 1 n gamma 2 Para una distribucion gaussiana donde g 2 0 displaystyle gamma 2 0 Esto significa que el ECM se minimiza al dividir la suma por a n 1 displaystyle a n 1 El exceso de curtosis es minimo g 2 2 displaystyle gamma 2 2 a que se consigue mediante una distribucion de Bernoulli con p 1 2 un tiron de la moneda y el ECM se reduce al minimo para a n 1 2 n displaystyle a n 1 2 n Asi que no importa lo que la curtosis obtenemos una estimacion mejor en el sentido de tener un ECM inferior reduciendo el tamano de la perito imparcial un poco este es un ejemplo sencillo de un estimador de la contraccion uno encoge el estimador hacia cero escalas por el estimador no sesgado Ademas mientras que la varianza muestral corregida es el mejor estimador insesgado error cuadratico medio minimo entre los estimadores no sesgados de la varianza para distribuciones gaussianas si la distribucion no es gaussiana entonces incluso entre estimadores no sesgados el mejor estimador insesgado de la varianza puede no ser S n 1 2 displaystyle S n 1 2 Distribucion gaussiana Editar a tabla siguiente da varios estimadores de los verdaderos parametros de la poblacion m y s2 para el caso de Gauss 5 True value Estimator Mean squared error8 m 8 displaystyle hat theta El estimador insesgado de la media de la poblacion X 1 n i 1 n X i displaystyle overline X frac 1 n sum i 1 n X i MSE X E X m 2 s n 2 displaystyle operatorname MSE overline X operatorname E overline X mu 2 left frac sigma sqrt n right 2 8 s2 8 displaystyle hat theta El estimador insesgado de la varianza de la poblacion S n 1 2 1 n 1 i 1 n X i X 2 displaystyle S n 1 2 frac 1 n 1 sum i 1 n left X i overline X right 2 MSE S n 1 2 E S n 1 2 s 2 2 2 n 1 s 4 displaystyle operatorname MSE S n 1 2 operatorname E S n 1 2 sigma 2 2 frac 2 n 1 sigma 4 8 s2 8 displaystyle hat theta El estimador sesgado de la varianza de la poblacion S n 2 1 n i 1 n X i X 2 displaystyle S n 2 frac 1 n sum i 1 n left X i overline X right 2 MSE S n 2 E S n 2 s 2 2 2 n 1 n 2 s 4 displaystyle operatorname MSE S n 2 operatorname E S n 2 sigma 2 2 frac 2n 1 n 2 sigma 4 8 s2 8 displaystyle hat theta El estimador sesgado de la varianza de la poblacion S n 1 2 1 n 1 i 1 n X i X 2 displaystyle S n 1 2 frac 1 n 1 sum i 1 n left X i overline X right 2 MSE S n 1 2 E S n 1 2 s 2 2 2 n 1 s 4 displaystyle operatorname MSE S n 1 2 operatorname E S n 1 2 sigma 2 2 frac 2 n 1 sigma 4 Tenga en cuenta que Las MSEs mostradas para los estimadores de varianza asumen que X i N displaystyle X i sim operatorname N N medido por MSE el MSE de S n 1 2 displaystyle S n 1 2 es mayor que S n 1 2 displaystyle S n 1 2 or S n 2 displaystyle S n 2 Los estimadores con la variacion total mas pequena pueden producir estimaciones sesgadas S n 1 2 displaystyle S n 1 2 tipicamente subestima s2 por 2 n s 2 displaystyle frac 2 n sigma 2 Referencias Editar Lehmann E L Casella George 1998 Theory of Point Estimation 2nd edicion Nueva York Springer ISBN 0 387 98502 6 MR 1639875 Wackerly Dennis Scheaffer William 2008 Mathematical Statistics with Applications 7 edicion Belmont CA USA Thomson Higher Education ISBN 0 495 38508 5 Steel R G D and Torrie J H Principles and Procedures of Statistics with Special Reference to the Biological Sciences McGraw Hill 1960 page 288 Mood A Graybill F Boes D 1974 Introduction to the Theory of Statistics 3rd edicion McGraw Hill p 229 DeGroot Morris H 1980 Probability and Statistics 2nd edicion Addison Wesley Datos Q1940696 Obtenido de https es wikipedia org w index php title Error cuadratico medio amp oldid 129993391, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos