fbpx
Wikipedia

Análisis de la regresión

En estadística, el análisis de la regresión es un proceso estadístico para estimar las relaciones entre variables. Incluye muchas técnicas para el modelado y análisis de diversas variables, cuando la atención se centra en la relación entre una variable dependiente y una o más variables independientes (o predictoras). Más específicamente, el análisis de regresión ayuda a entender cómo el valor de la variable dependiente varía al cambiar el valor de una de las variables independientes, manteniendo el valor de las otras variables independientes fijas. Más comúnmente, el análisis de regresión estima la esperanza condicional de la variable dependiente dadas las variables independientes - es decir, el valor promedio de la variable dependiente cuando se fijan las variables independientes. Con menor frecuencia, la atención se centra en un cuantil, u otro parámetro de localización de la distribución condicional de la variable dependiente dadas las variables independientes. En todos los casos, el objetivo de la estimación es una función de las variables independientes llamada la función de regresión. En el análisis de regresión, también es de interés caracterizar la variación de la variable dependiente en torno a la función de regresión, la cual puede ser descrita por una distribución de probabilidad.

El análisis de regresión es ampliamente utilizado para la predicción y previsión, donde su uso tiene superposición sustancial en el campo de aprendizaje automático. El análisis de regresión se utiliza también para comprender cuales de las variables independientes están relacionadas con la variable dependiente, y explorar las formas de estas relaciones. En circunstancias limitadas, el análisis de regresión puede utilizarse para inferir relaciones causales entre las variables independientes y dependientes. Sin embargo, esto puede llevar a ilusiones o relaciones falsas, por lo que se recomienda precaución,[1]​ por ejemplo, la correlación no implica causalidad.

Muchas técnicas han sido desarrolladas para llevar a cabo el análisis de regresión. Métodos familiares tales como la regresión lineal y la regresión por cuadrados mínimos ordinarios son paramétricos, en que la función de regresión se define en términos de un número finito de parámetros desconocidos que se estiman a partir de los datos. La regresión no paramétrica se refiere a las técnicas que permiten que la función de regresión consista en un conjunto específico de funciones, que puede ser de dimensión infinita.

El desempeño de los métodos de análisis de regresión en la práctica depende de la forma del proceso de generación de datos, y cómo se relaciona con el método de regresión que se utiliza. Dado que la forma verdadera del proceso de generación de datos generalmente no se conoce, el análisis de regresión depende a menudo hasta cierto punto de hacer suposiciones acerca de este proceso. Estos supuestos son a veces comprobables si una cantidad suficiente de datos está disponible. Los modelos de regresión para la predicción son frecuentemente útiles aunque los supuestos sean violados moderadamente, aunque no pueden funcionar de manera óptima. Sin embargo, en muchas aplicaciones, sobre todo con pequeños efectos o las cuestiones de causalidad sobre la base de datos observacionales, los métodos de regresión pueden dar resultados engañosos.[2][3]

Historia

La primera forma de regresión fue el método de mínimos cuadrados, que fue publicado por Legendre en 1805,[4]​ y por Gauss en 1809.[5]​ Legendre y Gauss aplicaron el método para el problema de determinar, a partir de observaciones astronómicas, las órbitas de los cuerpos alrededor del Sol (principalmente cometas, pero también más tarde los entonces recién descubiertos planetas menores). Gauss publicó un desarrollo posterior de la teoría de los mínimos cuadrados en 1821,[6]​ incluyendo una versión del teorema de Gauss-Markov.

El término "regresión" fue acuñado por Francis Galton en el siglo XIX para describir un fenómeno biológico. El fenómeno fue que las alturas de los descendientes de ancestros altos tienden a regresar hacia abajo, hacia un promedio normal (un fenómeno conocido como regresión hacia la media ).[7][8]​ Para Galton, la regresión sólo tenía este significado biológico,[9][10]​ pero su trabajo fue extendido más tarde por Udny Yule y Karl Pearson a un contexto estadístico más general.[11][12]​ En la obra de Yule y Pearson, la distribución conjunta de la variable respuesta y las variables explicativas se supone que es Gaussiana. Esta suposición fue debilitada por Ronald Fisher en sus obras de 1922 y 1925.[13][14][15]​ Fisher supone que la distribución condicional de la variable respuesta es Gaussiana, pero la distribución conjunta no necesario que lo sea. A este respecto, la asunción de Fisher está más cerca de la formulación de Gauss de 1821.

En los años 1950 y 1960, los economistas utilizaron calculadoras electromecánicas para calcular las regresiones. Antes de 1970, a veces tomaba hasta 24 horas para recibir el resultado de una regresión.[16]

Los métodos de regresión siguen siendo un área de investigación activa. En las últimas décadas, nuevos métodos han sido desarrollados para regresión robusta, regresión que implica respuestas correlacionadas, tales como series de tiempo y las curvas de crecimiento, regresión en la que los predictores (variable independiente) o las variables de respuesta son curvas, imágenes, gráficos y otros objetos de datos complejos, métodos de regresión que aceptan varios tipos de datos faltantes, regresión no paramétrica, métodos de regresión bayesianos, regresión en la que las variables predictoras son medidas con error, regresión con más variables predictoras que observaciones y la inferencia causal con regresión.

Modelos de Regresión

Regresión Lineal Simple

Este modelo está conformado por dos variables estadísticas llamadas   y  . Asumiremos que la variable   es influida por la variable  , de esta forma, podemos referirnos a   y a  como Variable Independiente o Regresora y Variable Dependiente o Respuesta respectivamente.

Para la Regresión Lineal se asume que   y   se relacionan mediante

 

donde

  •   es una variable estadística no determinista.
  •   es una variable estadística determinista.
  •   es una variable estadística no determinista y no observable.
  •   son constantes desconocidas.
  •   y  .
  •   si  .
  •  

Los parámetros   y   son conocidos como coeficientes de regresión y estos pueden ser estimados mediante el método de Mínimos cuadrados o por el método de Máxima verosimilitud.

Regresión no lineal

Véase también

Referencias

  1. Armstrong, J. Scott (2012). «Illusions in Regression Analysis». International Journal of Forecasting (forthcoming) 28 (3): 689. doi:10.1016/j.ijforecast.2012.02.001. 
  2. David A. Freedman, Statistical Models: Theory and Practice, Cambridge University Press (2005)
  3. R. Dennis Cook; Sanford Weisberg Criticism and Influence Analysis in Regression, Sociological Methodology, Vol. 13. (1982), pp. 313–361
  4. A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
  5. C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)
  6. C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
  7. Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 0-7575-1181-3. 
  8. Galton, Francis (1989). «Kinship and Correlation (reprinted 1989)». Statistical Science (Institute of Mathematical Statistics) 4 (2): 80-86. JSTOR 2245330. doi:10.1214/ss/1177012581. 
  9. Francis Galton. "Typical laws of heredity", Nature 15 (1877), 492–495, 512–514, 532–533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)
  10. Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton uses the term "regression" in this paper, which discusses the height of humans.)
  11. Yule, G. Udny (1897). «On the Theory of Correlation». Journal of the Royal Statistical Society (Blackwell Publishing) 60 (4): 812-54. JSTOR 2979746. doi:10.2307/2979746. 
  12. Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee,Alice (1903). «The Law of Ancestral Heredity». Biometrika (Biometrika Trust) 2 (2): 211-236. JSTOR 2331683. doi:10.1093/biomet/2.2.211. 
  13. Fisher, R.A. (1922). «The goodness of fit of regression formulae, and the distribution of regression coefficients». Journal of the Royal Statistical Society (Blackwell Publishing) 85 (4): 597-612. JSTOR 2341124. doi:10.2307/2341124. 
  14. Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth edición). Edinburgh: Oliver and Boyd. ISBN 0-05-002170-2. 
  15. Aldrich, John (2005). «Fisher and Regression». Statistical Science 20 (4): 401-417. JSTOR 20061201. doi:10.1214/088342305000000331. 
  16. Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? March 2006. Accessed 2011-12-03.

Enlaces externos

  • Francis Galton. "Regression Towards Mediocrity in Hereditary Stature," Journal of the Anthropological Institute, 15:246-263 (1886).
  • A non-mathematical explanation of regression toward the mean.
  • A simulation of regression toward the mean.
  • Amanda Wachsmuth, Leland Wilkinson, Gerard E. Dallal. Galton's Bend: An Undiscovered Nonlinearity in Galton's Family Stature Regression Data and a Likely Explanation Based on Pearson and Lee's Stature Data


  •   Datos: Q208042
  •   Multimedia: Regression analysis

análisis, regresión, estadística, análisis, regresión, proceso, estadístico, para, estimar, relaciones, entre, variables, incluye, muchas, técnicas, para, modelado, análisis, diversas, variables, cuando, atención, centra, relación, entre, variable, dependiente. En estadistica el analisis de la regresion es un proceso estadistico para estimar las relaciones entre variables Incluye muchas tecnicas para el modelado y analisis de diversas variables cuando la atencion se centra en la relacion entre una variable dependiente y una o mas variables independientes o predictoras Mas especificamente el analisis de regresion ayuda a entender como el valor de la variable dependiente varia al cambiar el valor de una de las variables independientes manteniendo el valor de las otras variables independientes fijas Mas comunmente el analisis de regresion estima la esperanza condicional de la variable dependiente dadas las variables independientes es decir el valor promedio de la variable dependiente cuando se fijan las variables independientes Con menor frecuencia la atencion se centra en un cuantil u otro parametro de localizacion de la distribucion condicional de la variable dependiente dadas las variables independientes En todos los casos el objetivo de la estimacion es una funcion de las variables independientes llamada la funcion de regresion En el analisis de regresion tambien es de interes caracterizar la variacion de la variable dependiente en torno a la funcion de regresion la cual puede ser descrita por una distribucion de probabilidad El analisis de regresion es ampliamente utilizado para la prediccion y prevision donde su uso tiene superposicion sustancial en el campo de aprendizaje automatico El analisis de regresion se utiliza tambien para comprender cuales de las variables independientes estan relacionadas con la variable dependiente y explorar las formas de estas relaciones En circunstancias limitadas el analisis de regresion puede utilizarse para inferir relaciones causales entre las variables independientes y dependientes Sin embargo esto puede llevar a ilusiones o relaciones falsas por lo que se recomienda precaucion 1 por ejemplo la correlacion no implica causalidad Muchas tecnicas han sido desarrolladas para llevar a cabo el analisis de regresion Metodos familiares tales como la regresion lineal y la regresion por cuadrados minimos ordinarios son parametricos en que la funcion de regresion se define en terminos de un numero finito de parametros desconocidos que se estiman a partir de los datos La regresion no parametrica se refiere a las tecnicas que permiten que la funcion de regresion consista en un conjunto especifico de funciones que puede ser de dimension infinita El desempeno de los metodos de analisis de regresion en la practica depende de la forma del proceso de generacion de datos y como se relaciona con el metodo de regresion que se utiliza Dado que la forma verdadera del proceso de generacion de datos generalmente no se conoce el analisis de regresion depende a menudo hasta cierto punto de hacer suposiciones acerca de este proceso Estos supuestos son a veces comprobables si una cantidad suficiente de datos esta disponible Los modelos de regresion para la prediccion son frecuentemente utiles aunque los supuestos sean violados moderadamente aunque no pueden funcionar de manera optima Sin embargo en muchas aplicaciones sobre todo con pequenos efectos o las cuestiones de causalidad sobre la base de datos observacionales los metodos de regresion pueden dar resultados enganosos 2 3 Indice 1 Historia 2 Modelos de Regresion 2 1 Regresion Lineal Simple 2 2 Regresion no lineal 3 Vease tambien 4 Referencias 5 Enlaces externosHistoria EditarLa primera forma de regresion fue el metodo de minimos cuadrados que fue publicado por Legendre en 1805 4 y por Gauss en 1809 5 Legendre y Gauss aplicaron el metodo para el problema de determinar a partir de observaciones astronomicas las orbitas de los cuerpos alrededor del Sol principalmente cometas pero tambien mas tarde los entonces recien descubiertos planetas menores Gauss publico un desarrollo posterior de la teoria de los minimos cuadrados en 1821 6 incluyendo una version del teorema de Gauss Markov El termino regresion fue acunado por Francis Galton en el siglo XIX para describir un fenomeno biologico El fenomeno fue que las alturas de los descendientes de ancestros altos tienden a regresar hacia abajo hacia un promedio normal un fenomeno conocido como regresion hacia la media 7 8 Para Galton la regresion solo tenia este significado biologico 9 10 pero su trabajo fue extendido mas tarde por Udny Yule y Karl Pearson a un contexto estadistico mas general 11 12 En la obra de Yule y Pearson la distribucion conjunta de la variable respuesta y las variables explicativas se supone que es Gaussiana Esta suposicion fue debilitada por Ronald Fisher en sus obras de 1922 y 1925 13 14 15 Fisher supone que la distribucion condicional de la variable respuesta es Gaussiana pero la distribucion conjunta no necesario que lo sea A este respecto la asuncion de Fisher esta mas cerca de la formulacion de Gauss de 1821 En los anos 1950 y 1960 los economistas utilizaron calculadoras electromecanicas para calcular las regresiones Antes de 1970 a veces tomaba hasta 24 horas para recibir el resultado de una regresion 16 Los metodos de regresion siguen siendo un area de investigacion activa En las ultimas decadas nuevos metodos han sido desarrollados para regresion robusta regresion que implica respuestas correlacionadas tales como series de tiempo y las curvas de crecimiento regresion en la que los predictores variable independiente o las variables de respuesta son curvas imagenes graficos y otros objetos de datos complejos metodos de regresion que aceptan varios tipos de datos faltantes regresion no parametrica metodos de regresion bayesianos regresion en la que las variables predictoras son medidas con error regresion con mas variables predictoras que observaciones y la inferencia causal con regresion Modelos de Regresion EditarRegresion Lineal Simple Editar Este modelo esta conformado por dos variables estadisticas llamadas X displaystyle X y Y displaystyle Y Asumiremos que la variable Y displaystyle Y es influida por la variable X displaystyle X de esta forma podemos referirnos a X displaystyle X y a Y displaystyle Y como Variable Independiente o Regresora y Variable Dependiente o Respuesta respectivamente Para la Regresion Lineal se asume que X displaystyle X y Y displaystyle Y se relacionan medianteY b 0 b 1 X e displaystyle Y beta 0 beta 1 X varepsilon donde Y displaystyle Y es una variable estadistica no determinista X displaystyle X es una variable estadistica determinista e displaystyle varepsilon es una variable estadistica no determinista y no observable b 0 b 1 R displaystyle beta 0 beta 1 in mathbb R son constantes desconocidas E e 0 displaystyle operatorname E varepsilon 0 y Var e s 2 lt displaystyle text Var varepsilon sigma 2 lt infty Cov e i e j 0 displaystyle text Cov varepsilon i varepsilon j 0 si i j displaystyle i neq j e N 0 s 2 displaystyle varepsilon sim N 0 sigma 2 Los parametros b 0 displaystyle beta 0 y b 1 displaystyle beta 1 son conocidos como coeficientes de regresion y estos pueden ser estimados mediante el metodo de Minimos cuadrados o por el metodo de Maxima verosimilitud Regresion no lineal Editar Articulo principal Regresion no lineal Regresion segmentadaVease tambien EditarContraste de hipotesis Regresion lineal Regresion no lineal Regresion logisticaReferencias Editar Armstrong J Scott 2012 Illusions in Regression Analysis International Journal of Forecasting forthcoming 28 3 689 doi 10 1016 j ijforecast 2012 02 001 David A Freedman Statistical Models Theory and Practice Cambridge University Press 2005 R Dennis Cook Sanford Weisberg Criticism and Influence Analysis in Regression Sociological Methodology Vol 13 1982 pp 313 361 A M Legendre Nouvelles methodes pour la determination des orbites des cometes Firmin Didot Paris 1805 Sur la Methode des moindres quarres appears as an appendix C F Gauss Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum 1809 C F Gauss Theoria combinationis observationum erroribus minimis obnoxiae 1821 1823 Mogull Robert G 2004 Second Semester Applied Statistics Kendall Hunt Publishing Company p 59 ISBN 0 7575 1181 3 Galton Francis 1989 Kinship and Correlation reprinted 1989 Statistical Science Institute of Mathematical Statistics 4 2 80 86 JSTOR 2245330 doi 10 1214 ss 1177012581 Francis Galton Typical laws of heredity Nature 15 1877 492 495 512 514 532 533 Galton uses the term reversion in this paper which discusses the size of peas Francis Galton Presidential address Section H Anthropology 1885 Galton uses the term regression in this paper which discusses the height of humans Yule G Udny 1897 On the Theory of Correlation Journal of the Royal Statistical Society Blackwell Publishing 60 4 812 54 JSTOR 2979746 doi 10 2307 2979746 Pearson Karl Yule G U Blanchard Norman Lee Alice 1903 The Law of Ancestral Heredity Biometrika Biometrika Trust 2 2 211 236 JSTOR 2331683 doi 10 1093 biomet 2 2 211 Fisher R A 1922 The goodness of fit of regression formulae and the distribution of regression coefficients Journal of the Royal Statistical Society Blackwell Publishing 85 4 597 612 JSTOR 2341124 doi 10 2307 2341124 Ronald A Fisher 1954 Statistical Methods for Research Workers Twelfth edicion Edinburgh Oliver and Boyd ISBN 0 05 002170 2 Aldrich John 2005 Fisher and Regression Statistical Science 20 4 401 417 JSTOR 20061201 doi 10 1214 088342305000000331 Rodney Ramcharan Regressions Why Are Economists Obessessed with Them March 2006 Accessed 2011 12 03 Enlaces externos EditarFrancis Galton Regression Towards Mediocrity in Hereditary Stature Journal of the Anthropological Institute 15 246 263 1886 A non mathematical explanation of regression toward the mean A simulation of regression toward the mean Amanda Wachsmuth Leland Wilkinson Gerard E Dallal Galton s Bend An Undiscovered Nonlinearity in Galton s Family Stature Regression Data and a Likely Explanation Based on Pearson and Lee s Stature Data Datos Q208042 Multimedia Regression analysisObtenido de https es wikipedia org w index php title Analisis de la regresion amp oldid 133550585, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos