fbpx
Wikipedia

Regresión robusta

En estadística robusta, una regresión robusta es una forma de análisis de la regresión diseñada para eludir algunas limitaciones tradicionales de los métodos paramétricos y no paramétricos. El análisis de regresión busca encontrar la relación entre una o más variables independientes y una variable dependiente. Algunos métodos utilizados de regresión, como mínimos cuadrados ordinarios, tienen propiedades favorables si sus suposiciones subyacentes se cumplen para los datos estudiados, pero pueden dar resultados engañosos si esas suposiciones no son ciertas; se dice que mínimos cuadrados ordinarios no es robusto a violaciones de los supuestos. Los métodos de regresión robusta están diseñados para no ser excesivamente afectados por violaciones de los supuestos por el proceso de generación de datos subyacente.

En particular, las estimaciones con los mínimos cuadrados son altamente no robustos a los valores atípicos. Si bien no existe una definición exacta de un valor atípico o de una observación atípica, los valores atípicos son observaciones que no siguen el patrón de las otras observaciones. Esto no es normalmente un problema si el valor atípico es simplemente una observación extrema extraída de la cola de una distribución normal, pero si los resultados atípicos de error de medición no normal o alguna otra violación de supuestos ordinarios de mínimos cuadrados estándar, entonces se compromete la validez de los resultados de la regresión si se utiliza una técnica de regresión no-robusta.

Aplicaciones

Errores heteroscedásticos

Un caso en el que la estimación robusta se debe considerar es cuando hay una fuerte sospecha de heterocedasticidad. En el modelo homoscedástico se asume que la varianza del término de error es constante para todos los valores de x. Heteroscedasticidad permite la variación que dependerá de x, que es más preciso para muchos escenarios reales. Por ejemplo, la variación del gasto suele ser mayor para las personas con ingresos más altos que para las personas con ingresos más bajos. Los paquetes de software normalmente por defecto a una modelo homoscedástica, a pesar de que este modelo puede ser menos precisa que un modelo heteroscedástico. Un enfoque simple (Tofallis, 2008) es la aplicación de mínimos cuadrados a los errores porcentuales, ya que esto reduce la influencia de los valores más grandes de la variable dependiente en comparación con los mínimos cuadrados ordinarios.

La presencia de valores atípicos

Otra situación común en la que se utiliza estimación robusta se produce cuando los datos contienen valores atípicos. En presencia de valores atípicos que no provienen de un mismo proceso de generación de datos que el resto de los datos, la estimación por mínimos cuadrados es ineficaz y puede estar sesgada. Debido a que las predicciones con mínimos cuadrados son arrastradas hacia los valores atípicos, y debido a que la varición de las estimaciones se inflan artificialmente, el resultado es que los valores atípicos se pueden enmascarar. (En muchas situaciones, como algunas zonas de la geoestadística y estadísticas médicas, son precisamente los valores atípicos los que son de interés.)

Aunque a veces se afirma que los mínimos cuadrados (o métodos estadísticos clásicos en general) son robustos, solo son robustos en el sentido de que el tipo I tasa de error no aumenta bajo violaciones del modelo. De hecho, el tipo I tasa de error tiende a ser más bajo que el nivel nominal cuando los valores atípicos están presentes, y con frecuencia hay un dramático incremento en la tasa de error de tipo II. La reducción de la tasa de error de tipo I ha sido etiquetado como el conservadurismo de los métodos clásicos. Otras etiquetas pueden incluir la ineficacia o inadmisibilidad.

Historia e impopularidad de la regresión robusta

A pesar de su rendimiento superior sobre la estimación de mínimos cuadrados, en muchos casos, aún no se utilizan ampliamente métodos robustos para la regresión. Hay varias razones que pueden ayudar a explicar su impopularidad (Hampel et al. 1986, 2005). Una posible razón es que hay varios métodos que compiten y el campo empezó con muchas salidas en falso. Además, el cálculo de las estimaciones robustas es mucho más intensiva computacionalmente que la estimación por mínimos cuadrados. Sin embargo, en los últimos años esta objeción se ha vuelto menos relevante dado que la potencia de cálculo ha aumentado considerablemente. Otra razón de la poca utilización de la regresión robusta puede ser que algunos paquetes populares de software estadístico no aplicaron los métodos (Stromberg, 2004). La creencia de muchos estadísticos de que los métodos clásicos son robustos puede ser otra razón.

Aunque la adopción de métodos robustos ha sido lenta, las materias de estadística convencionales y los libros de texto modernos a menudo incluyen la discusión de estos métodos (por ejemplo, los libros de Seber y Lee, y Faraway). Además, los paquetes de software estadísticos modernos, como R, Stata y S-PLUS incluyen una funcionalidad considerable para la estimación robusta (véase, por ejemplo, los libros de Venables y Ripley, y por Maronna et al.).

Los métodos de regresión robusta

Alternativas a los mínimos cuadrados

Los métodos más simples de estimación de parámetros en un modelo de regresión que son menos sensibles a los valores atípicos que las estimaciones de mínimos cuadrados, es el uso de Mínimas desviaciones absolutas. Incluso entonces, los valores extremos graves aún puede tener un impacto considerable en el modelo, motivando la investigación sobre enfoques aún más robustos.

En 1973, Peter J. Huber presentó los modelos de regresión M-estimación. La M en las siglas de M-estimación son por "Tipo de máxima verosimilitud". El método es robusto a los valores atípicos en la variable de respuesta, pero resultó no ser resistente a los valores atípicos en las variables explicativas (puntos de influencia). De hecho, cuando hay valores extremos en las variables explicativas, el método no tiene ninguna ventaja sobre los mínimos cuadrados.

En la década de 1980, se propusieron varias alternativas al M-estimación como intentos de superar la falta de resistencia. Mínimos cuadrados recortados (LTS) es una alternativa viable y es actualmente (2007) en la opción preferida de Rousseeuw y Ryan (1997, 2008). El Theil-Sen estimador tiene un punto de ruptura inferior LTS pero es estadísticamente eficiente y popular. Otra solución propuesta fue S-estimación. Este método encuentra una línea (plano o hiperplano) que minimiza una estimación robusta de la escala (de la que el método obtiene el S en su nombre) de los residuos. Este método es altamente resistente a los puntos de influencia, y es robusto a los valores atípicos en la respuesta. Sin embargo, se encontró también que este método es ineficaz.

Alternativas paramétricas

Otro enfoque para la estimación robusta de modelos de regresión es reemplazar la distribución normal con una distribución de cola pesada. Una distribución t con entre 4 y 6 grados de libertad se considera que es una buena elección en diferentes situaciones prácticas. La regresión bayesiana robusta, siendo totalmente paramétrica se basa en gran medida de estas distribuciones.

Bajo el supuesto de residuos t-distribuidos, la distribución es una localización escala. Es decir,  . Los grados de libertad de la distribución t son a veces llamados el parámetro de curtosis. Lange, Little y Taylor (1989) discuten este modelo en cierta profundidad desde un punto de vista no Bayesiano.[1]​ Una estudio que toma en cuenta lo bayesiano aparece en Gelman et al. (2003).[2]

Un enfoque paramétrico alternativo es suponer que los residuos siguen una mezcla de distribuciones normales, en particular, una distribución normal contaminada en la que la mayoría de las observaciones son de una distribución normal especificada, pero una pequeña proporción son de una distribución normal con mucho mayor varianza. Eso es, los residuos tienen probabilidad   de venir de una distribución normal con varianza  , En donde   es pequeño, y la probabilidad   de venir de una distribución normal con varianza   para algunos  

 

Típicamente,  . Esto a veces se llama el   Modelo de la contaminación.

Enfoques paramétricos tienen la ventaja de que la teoría de probabilidad proporciona un 'fuera de la plataforma' enfoque a la inferencia (aunque para los modelos de mezcla tales como la   -Contaminación modelo, no pudo aplicarse las condiciones usuales de regularidad), y que es posible construir modelos de simulación a partir del ajuste. Sin embargo, estos modelos paramétricos todavía asumen que el modelo subyacente es literalmente cierto. Como tales, no tienen en cuenta las distribuciones residuales sesgadas o precisiones observación finitos.

Referencias

  1. Lange, K. L.; R. J. A. Little and J. M. G. Taylor (1989). «Robust statistical modeling using the t-distribution». Journal of the American Statistical Association 84 (408): 881-896. JSTOR 2290063. doi:10.2307/2290063. 
  2. Gelman, A.; J. B. Carlin, H. S. Stern and D. B. Rubin (2003). Bayesian Data Analysis (Second ed.). Chapman & Hall/CRC.

Bibliografía adicional

  • Andersen, R. (2008). Modern Methods for Robust Regression. Sage University Paper Series on Quantitative Applications in the Social Sciences, 07-152. 
  • Ben-Gal I., Outlier detection, In: Maimon O. and Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers," Kluwer Academic Publishers, 2005, ISBN 0-387-24435-2.
  • Breiman, L. (2001). «Statistical Modeling: the Two Cultures». Statistical Science 16 (3): 199-231. JSTOR 2676681. doi:10.1214/ss/1009213725. 
  • Faraway, J. J. (2004). Linear Models with R. Chapman & Hall/CRC. 
  • Draper, David (1988). «Rank-Based Robust Analysis of Linear Models. I. Exposition and Review». Statistical Science 3 (2): 239-257. JSTOR 2245578. doi:10.1214/ss/1177012915. 
  • McKean, Joseph W. (2004). «Robust Analysis of Linear Models». Statistical Science 19 (4): 562-570. JSTOR 4144426. doi:10.1214/088342304000000549. 
  • Fornalski, K. W. (2015). «Applications of the robust Bayesian regression analysis». International Journal of Society Systems Science 7 (4): 314-333. doi:10.1504/IJSSS.2015.073223. 
  • Gelman, A.; J. B. Carlin, H. S. Stern and D. B. Rubin (2003). Bayesian Data Analysis (Second Edition). Chapman & Hall/CRC. 
  • Hampel, F. R.; E. M. Ronchetti, P. J. Rousseeuw and W. A. Stahel (1986, 2005). Robust Statistics: The Approach Based on Influence Functions. Wiley. 
  • Lange, K. L.; R. J. A. Little and J. M. G. Taylor (1989). «Robust statistical modeling using the t-distribution». Journal of the American Statistical Association 84 (408): 881-896. JSTOR 2290063. doi:10.2307/2290063. 
  • Maronna, R.; D. Martin and V. Yohai (2006). Robust Statistics: Theory and Methods. Wiley. 
  • Radchenko S.G. (2005). Robust methods for statistical models estimation: Monograph. (on russian language). Кiev: РР «Sanspariel» ISBN 966-96574-0-7. p. 504. 
  • Rousseeuw, P. J.; A. M. Leroy (1986, 2003). Robust Regression and Outlier Detection. Wiley. 
  • Ryan, T. P. (1997, 2008). Modern Regression Methods. Wiley. 
  • Seber, G. A. F.; A. J. Lee (2003). Linear Regression Analysis (Second Edition). Wiley. 
  • Stromberg, A. J. (2004). «Why write statistical software? The case of robust statistical methods». Journal of Statistical Software. 
  • Strutz, Tilo (2010). Data Fitting and Uncertainty - A practical introduction to weighted least squares and beyond. Vieweg+Teubner. ISBN 978-3-8348-1022-9. 
  • Tofallis, Chris (2008). «Least Squares Percentage Regression». Journal of Modern Applied Statistical Methods 7: 526-534. 
  • Venables, W. N.; B. D. Ripley (2002). Modern Applied Statistics with S. Springer. 
  •   Datos: Q1847839

regresión, robusta, estadística, robusta, regresión, robusta, forma, análisis, regresión, diseñada, para, eludir, algunas, limitaciones, tradicionales, métodos, paramétricos, paramétricos, análisis, regresión, busca, encontrar, relación, entre, más, variables,. En estadistica robusta una regresion robusta es una forma de analisis de la regresion disenada para eludir algunas limitaciones tradicionales de los metodos parametricos y no parametricos El analisis de regresion busca encontrar la relacion entre una o mas variables independientes y una variable dependiente Algunos metodos utilizados de regresion como minimos cuadrados ordinarios tienen propiedades favorables si sus suposiciones subyacentes se cumplen para los datos estudiados pero pueden dar resultados enganosos si esas suposiciones no son ciertas se dice que minimos cuadrados ordinarios no es robusto a violaciones de los supuestos Los metodos de regresion robusta estan disenados para no ser excesivamente afectados por violaciones de los supuestos por el proceso de generacion de datos subyacente En particular las estimaciones con los minimos cuadrados son altamente no robustos a los valores atipicos Si bien no existe una definicion exacta de un valor atipico o de una observacion atipica los valores atipicos son observaciones que no siguen el patron de las otras observaciones Esto no es normalmente un problema si el valor atipico es simplemente una observacion extrema extraida de la cola de una distribucion normal pero si los resultados atipicos de error de medicion no normal o alguna otra violacion de supuestos ordinarios de minimos cuadrados estandar entonces se compromete la validez de los resultados de la regresion si se utiliza una tecnica de regresion no robusta Indice 1 Aplicaciones 1 1 Errores heteroscedasticos 1 2 La presencia de valores atipicos 2 Historia e impopularidad de la regresion robusta 3 Los metodos de regresion robusta 3 1 Alternativas a los minimos cuadrados 3 2 Alternativas parametricas 4 Referencias 5 Bibliografia adicionalAplicaciones EditarErrores heteroscedasticos Editar Un caso en el que la estimacion robusta se debe considerar es cuando hay una fuerte sospecha de heterocedasticidad En el modelo homoscedastico se asume que la varianza del termino de error es constante para todos los valores de x Heteroscedasticidad permite la variacion que dependera de x que es mas preciso para muchos escenarios reales Por ejemplo la variacion del gasto suele ser mayor para las personas con ingresos mas altos que para las personas con ingresos mas bajos Los paquetes de software normalmente por defecto a una modelo homoscedastica a pesar de que este modelo puede ser menos precisa que un modelo heteroscedastico Un enfoque simple Tofallis 2008 es la aplicacion de minimos cuadrados a los errores porcentuales ya que esto reduce la influencia de los valores mas grandes de la variable dependiente en comparacion con los minimos cuadrados ordinarios La presencia de valores atipicos Editar Otra situacion comun en la que se utiliza estimacion robusta se produce cuando los datos contienen valores atipicos En presencia de valores atipicos que no provienen de un mismo proceso de generacion de datos que el resto de los datos la estimacion por minimos cuadrados es ineficaz y puede estar sesgada Debido a que las predicciones con minimos cuadrados son arrastradas hacia los valores atipicos y debido a que la varicion de las estimaciones se inflan artificialmente el resultado es que los valores atipicos se pueden enmascarar En muchas situaciones como algunas zonas de la geoestadistica y estadisticas medicas son precisamente los valores atipicos los que son de interes Aunque a veces se afirma que los minimos cuadrados o metodos estadisticos clasicos en general son robustos solo son robustos en el sentido de que el tipo I tasa de error no aumenta bajo violaciones del modelo De hecho el tipo I tasa de error tiende a ser mas bajo que el nivel nominal cuando los valores atipicos estan presentes y con frecuencia hay un dramatico incremento en la tasa de error de tipo II La reduccion de la tasa de error de tipo I ha sido etiquetado como el conservadurismo de los metodos clasicos Otras etiquetas pueden incluir la ineficacia o inadmisibilidad Historia e impopularidad de la regresion robusta EditarA pesar de su rendimiento superior sobre la estimacion de minimos cuadrados en muchos casos aun no se utilizan ampliamente metodos robustos para la regresion Hay varias razones que pueden ayudar a explicar su impopularidad Hampel et al 1986 2005 Una posible razon es que hay varios metodos que compiten y el campo empezo con muchas salidas en falso Ademas el calculo de las estimaciones robustas es mucho mas intensiva computacionalmente que la estimacion por minimos cuadrados Sin embargo en los ultimos anos esta objecion se ha vuelto menos relevante dado que la potencia de calculo ha aumentado considerablemente Otra razon de la poca utilizacion de la regresion robusta puede ser que algunos paquetes populares de software estadistico no aplicaron los metodos Stromberg 2004 La creencia de muchos estadisticos de que los metodos clasicos son robustos puede ser otra razon Aunque la adopcion de metodos robustos ha sido lenta las materias de estadistica convencionales y los libros de texto modernos a menudo incluyen la discusion de estos metodos por ejemplo los libros de Seber y Lee y Faraway Ademas los paquetes de software estadisticos modernos como R Stata y S PLUS incluyen una funcionalidad considerable para la estimacion robusta vease por ejemplo los libros de Venables y Ripley y por Maronna et al Los metodos de regresion robusta EditarAlternativas a los minimos cuadrados Editar Los metodos mas simples de estimacion de parametros en un modelo de regresion que son menos sensibles a los valores atipicos que las estimaciones de minimos cuadrados es el uso de Minimas desviaciones absolutas Incluso entonces los valores extremos graves aun puede tener un impacto considerable en el modelo motivando la investigacion sobre enfoques aun mas robustos En 1973 Peter J Huber presento los modelos de regresion M estimacion La M en las siglas de M estimacion son por Tipo de maxima verosimilitud El metodo es robusto a los valores atipicos en la variable de respuesta pero resulto no ser resistente a los valores atipicos en las variables explicativas puntos de influencia De hecho cuando hay valores extremos en las variables explicativas el metodo no tiene ninguna ventaja sobre los minimos cuadrados En la decada de 1980 se propusieron varias alternativas al M estimacion como intentos de superar la falta de resistencia Minimos cuadrados recortados LTS es una alternativa viable y es actualmente 2007 en la opcion preferida de Rousseeuw y Ryan 1997 2008 El Theil Sen estimador tiene un punto de ruptura inferior LTS pero es estadisticamente eficiente y popular Otra solucion propuesta fue S estimacion Este metodo encuentra una linea plano o hiperplano que minimiza una estimacion robusta de la escala de la que el metodo obtiene el S en su nombre de los residuos Este metodo es altamente resistente a los puntos de influencia y es robusto a los valores atipicos en la respuesta Sin embargo se encontro tambien que este metodo es ineficaz Alternativas parametricas Editar Otro enfoque para la estimacion robusta de modelos de regresion es reemplazar la distribucion normal con una distribucion de cola pesada Una distribucion t con entre 4 y 6 grados de libertad se considera que es una buena eleccion en diferentes situaciones practicas La regresion bayesiana robusta siendo totalmente parametrica se basa en gran medida de estas distribuciones Bajo el supuesto de residuos t distribuidos la distribucion es una localizacion escala Es decir x x m s displaystyle x leftarrow x mu sigma Los grados de libertad de la distribucion t son a veces llamados el parametro de curtosis Lange Little y Taylor 1989 discuten este modelo en cierta profundidad desde un punto de vista no Bayesiano 1 Una estudio que toma en cuenta lo bayesiano aparece en Gelman et al 2003 2 Un enfoque parametrico alternativo es suponer que los residuos siguen una mezcla de distribuciones normales en particular una distribucion normal contaminada en la que la mayoria de las observaciones son de una distribucion normal especificada pero una pequena proporcion son de una distribucion normal con mucho mayor varianza Eso es los residuos tienen probabilidad 1 e displaystyle 1 varepsilon de venir de una distribucion normal con varianza s 2 displaystyle sigma 2 En donde e displaystyle varepsilon es pequeno y la probabilidad e displaystyle varepsilon de venir de una distribucion normal con varianza c s 2 displaystyle c sigma 2 para algunos c gt 1 displaystyle c gt 1 e i 1 e N 0 s 2 e N 0 c s 2 displaystyle e i sim 1 varepsilon N 0 sigma 2 varepsilon N 0 c sigma 2 Tipicamente e lt 0 1 displaystyle varepsilon lt 0 1 Esto a veces se llama el e displaystyle varepsilon Modelo de la contaminacion Enfoques parametricos tienen la ventaja de que la teoria de probabilidad proporciona un fuera de la plataforma enfoque a la inferencia aunque para los modelos de mezcla tales como la e displaystyle varepsilon Contaminacion modelo no pudo aplicarse las condiciones usuales de regularidad y que es posible construir modelos de simulacion a partir del ajuste Sin embargo estos modelos parametricos todavia asumen que el modelo subyacente es literalmente cierto Como tales no tienen en cuenta las distribuciones residuales sesgadas o precisiones observacion finitos Referencias Editar Lange K L R J A Little and J M G Taylor 1989 Robust statistical modeling using the t distribution Journal of the American Statistical Association 84 408 881 896 JSTOR 2290063 doi 10 2307 2290063 La referencia utiliza el parametro obsoleto coautores ayuda Gelman A J B Carlin H S Stern and D B Rubin 2003 Bayesian Data Analysis Second ed Chapman amp Hall CRC Bibliografia adicional EditarAndersen R 2008 Modern Methods for Robust Regression Sage University Paper Series on Quantitative Applications in the Social Sciences 07 152 Ben Gal I Outlier detection In Maimon O and Rockach L Eds Data Mining and Knowledge Discovery Handbook A Complete Guide for Practitioners and Researchers Kluwer Academic Publishers 2005 ISBN 0 387 24435 2 Breiman L 2001 Statistical Modeling the Two Cultures Statistical Science 16 3 199 231 JSTOR 2676681 doi 10 1214 ss 1009213725 Faraway J J 2004 Linear Models with R Chapman amp Hall CRC Draper David 1988 Rank Based Robust Analysis of Linear Models I Exposition and Review Statistical Science 3 2 239 257 JSTOR 2245578 doi 10 1214 ss 1177012915 McKean Joseph W 2004 Robust Analysis of Linear Models Statistical Science 19 4 562 570 JSTOR 4144426 doi 10 1214 088342304000000549 Fornalski K W 2015 Applications of the robust Bayesian regression analysis International Journal of Society Systems Science 7 4 314 333 doi 10 1504 IJSSS 2015 073223 Gelman A J B Carlin H S Stern and D B Rubin 2003 Bayesian Data Analysis Second Edition Chapman amp Hall CRC La referencia utiliza el parametro obsoleto coautores ayuda Hampel F R E M Ronchetti P J Rousseeuw and W A Stahel 1986 2005 Robust Statistics The Approach Based on Influence Functions Wiley La referencia utiliza el parametro obsoleto coautores ayuda Lange K L R J A Little and J M G Taylor 1989 Robust statistical modeling using the t distribution Journal of the American Statistical Association 84 408 881 896 JSTOR 2290063 doi 10 2307 2290063 La referencia utiliza el parametro obsoleto coautores ayuda Maronna R D Martin and V Yohai 2006 Robust Statistics Theory and Methods Wiley La referencia utiliza el parametro obsoleto coautores ayuda Radchenko S G 2005 Robust methods for statistical models estimation Monograph on russian language Kiev RR Sanspariel ISBN 966 96574 0 7 p 504 Rousseeuw P J A M Leroy 1986 2003 Robust Regression and Outlier Detection Wiley La referencia utiliza el parametro obsoleto coautores ayuda Ryan T P 1997 2008 Modern Regression Methods Wiley Seber G A F A J Lee 2003 Linear Regression Analysis Second Edition Wiley La referencia utiliza el parametro obsoleto coautores ayuda Stromberg A J 2004 Why write statistical software The case of robust statistical methods Journal of Statistical Software Strutz Tilo 2010 Data Fitting and Uncertainty A practical introduction to weighted least squares and beyond Vieweg Teubner ISBN 978 3 8348 1022 9 Tofallis Chris 2008 Least Squares Percentage Regression Journal of Modern Applied Statistical Methods 7 526 534 Venables W N B D Ripley 2002 Modern Applied Statistics with S Springer La referencia utiliza el parametro obsoleto coautores ayuda Datos Q1847839Obtenido de https es wikipedia org w index php title Regresion robusta amp oldid 120124504, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos