fbpx
Wikipedia

Regresión lineal

En estadística, la regresión lineal o ajuste lineal es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente , variables independientes con y un término aleatorio . Este modelo puede ser expresado como:

Ejemplo de una regresión lineal con una variable dependiente y una variable independiente.

donde:

  • es la variable dependiente o variable de respuesta.
  • son las variables explicativas, independientes o regresoras.
  • son los parámetros del modelo, miden la influencia que las variables explicativas tienen sobre el regrediendo.

el término es la intersección o término "constante", las son los parámetros respectivos a cada variable independiente, y es el número de parámetros independientes a tener en cuenta en la regresión. La regresión lineal puede ser contrastada con la regresión no lineal.

Historia

La primera forma de regresión lineal documentada fue el método de los mínimos cuadrados que fue publicada por Legendre en 1805, Gauss publicó un trabajo en donde desarrollaba de manera más profunda el método de los mínimos cuadrados,[1]​ y en dónde se incluía una versión del teorema de Gauss-Márkov.

El término regresión se utilizó por primera vez en el estudio de variables antropométricas: al comparar la estatura de padres e hijos, donde resultó que los hijos cuyos padres tenían una estatura muy superior al valor medio, tendían a igualarse a este, mientras que aquellos cuyos padres eran muy bajos tendían a reducir su diferencia respecto a la estatura media; es decir, "regresaban" al promedio.[2]​ La constatación empírica de esta propiedad se vio reforzada más tarde con la justificación teórica de ese fenómeno.

El término lineal se emplea para distinguirlo del resto de técnicas de regresión, que emplean modelos basados en cualquier clase de función matemática. Los modelos lineales son una explicación simplificada de la realidad, mucho más ágiles y con un soporte teórico mucho más extenso por parte de la matemática y la estadística.

Pero bien, como se ha dicho, se puede usar el término lineal para distinguir modelos basados en cualquier clase de aplicación.

El modelo de regresión lineal

El modelo lineal relaciona la variable dependiente   con   variables regresoras   con   o cualquier transformación de éstas que generen un hiperplano de parámetros   desconocidos:

 

donde   es una variable aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar, y es la que confiere al modelo su carácter estocástico. En el caso más sencillo, con una sola variable explícita, el hiperplano es una recta:

 

El problema de la regresión consiste en elegir unos valores determinados para los parámetros desconocidos  , de modo que la ecuación quede completamente especificada. Para ello se necesita un conjunto de observaciones o una muestra proveniente de este modelo. En una observación  -ésima   cualquiera, se registra el comportamiento simultáneo de la variable dependiente y las variables explícitas (las perturbaciones aleatorias se suponen no observables).

 

Los valores escogidos como estimadores de los parámetros  , son los coeficientes de regresión sin que se pueda garantizar que coincidan con parámetros reales del proceso generador. Por tanto, en

 

Los valores   son por su parte estimaciones o errores de la perturbación aleatoria.

Hipótesis del modelo de regresión lineal clásico

  1. Media cero:  . Para cada valor de   la perturbación tomará distintos valores de forma aleatoria, pero no tomará sistemáticamente valores positivos o negativos, sino que se supone tomará algunos valores mayores que cero y otros menores que cero, de tal forma que su valor esperado sea cero.
  2. Homocedasticidad:   para todo  . Todos los términos de la perturbación tienen la misma varianza que es desconocida. La dispersión de cada   en torno a su valor esperado es siempre la misma.
  3. Incorrelación o independencia:   para todo  . Las covarianzas entre las distintas pertubaciones son nulas, lo que quiere decir que no están correlacionadas. Esto implica que el valor de la perturbación para cualquier observación muestral no viene influenciado por los valores de las perturbaciones correspondientes a otras observaciones muestrales.
  4. Regresores estocásticos. Los sistemas de ecuaciones simultáneas describen el comportamiento de un vector de variables endógenas en función de un vector de variables exógenas. Los regresores estocásticos surgen del hecho de que la variable endógena de una ecuación puede entrar en otra como variable explicativa.
  5. Independencia lineal. No existen relaciones lineales exactas entre los regresores.
  6.  . Suponemos que no existen errores de especificación en el modelo, ni errores de medida en las variables explicativas.
  7. Normalidad de las perturbaciones:  

Tipos de modelos de regresión lineal

Existen diferentes tipos de regresión lineal que se clasifican de acuerdo a sus parámetros:

Regresión lineal simple

Este modelo sólo está conformado por dos variables estadísticas llamadas   y  . Para la regresión lineal simple, se asume que   y   se relacionan mediante la relación funcional:[3]

 

donde   son constantes desconocidas llamadas coeficientes de regresión.

Estimación de los parámetros

Dado que los parámetros   y   son constantes desconocidas, estas deben estimarse mediante los datos de la muestra, supóngase que se tiene   datos  , se estimarán los parámetros utilizando el método de mínimos cuadrados.

Se estiman   y   tal que la suma de los cuadrados de las diferencias entre las observaciones   y la recta de regresión sea mínima, esto es, buscamos minimizar la función error cuadrático dada por

 

La función de error cuadrático   alcanza un mínimo en el punto   tal que

 

entonces derivando respecto a   y  , evaluando en   y   e igualando a cero, obtenemos el siguiente sistema de ecuaciones

 

estas dos ecuaciones son conocidas como ecuaciones normales la solución de dicho sistema de ecuaciones está dada por:[3]

 

La interpretación del parámetro medio   es que un incremento en Xi de una unidad, Yi incrementará en  . Luego el modelo ajustado de regresión lineal simple es

 

Regresión lineal múltiple

La regresión lineal permite analizar la relación entre dos o más variables a través de ecuaciones, lo que se denomina regresión múltiple o regresión lineal múltiple.

Constantemente en la práctica de la investigación estadística, se encuentran variables que de alguna manera están relacionadas entre sí, por lo que es posible que una de las variables puedan relacionarse matemáticamente en función de otra u otras variables.

Este modelo cuenta con varias variables regresoras, por lo que cuenta con varios parámetros, para la regresión lineal múltiple, se asume que la variable de respuesta   se relaciona con las variables regresoras   mediante la relación funcional:[4]

 

donde los parámetros   son llamados coeficientes del modelo de regresión múltiple.

Supongamos que se tiene una muestra de tamaño   dada por   con   donde   denota el  -ésimo valor observado en el regresor   y   denota la  -ésima observación de   entonces el modelo toma la forma

 

donde   es el error asociado a la  -ésima medición del valor   y sigue los supuestos usuales de modo que   (media cero, varianza constante e igual a   y   con  ).

Estimación de los parámetros

Para estimar los parámetros del modelo, se puede utilizar el método de mínimos cuadrados, en este caso, la función de error cuadrático está dada por

 

la cual deseamos minimizar.

Los estimadores por mínimos cuadrados denotados por   deben satisfacer

 

para  . Resolver este sistema con   ecuaciones de forma analítica es complicado por lo que se recurre a escribir el modelo de regresión lineal múltiple

 

en forma matricial como

 

siendo

 
 

donde   y  .

En forma matricial, la función de error cuadrático puede ser escrita como

 

Los estimadores por mínimos cuadrados deben satisfacer

 

donde   denota el vector que contiene a los estimadores y   denota un vector con ceros.

Puede verificarse que la condición anterior se reduce a

 

Si la matriz inversa   existe entonces el estimador por mínimos cuadrados está dado por

 

Por lo que el modelo ajustado de regresión está dado por

 

Rectas de regresión

Las rectas de regresión son las rectas que mejor se ajustan a la nube de puntos (o también llamado diagrama de dispersión) generada por una distribución conjunta. Matemáticamente, son posibles dos rectas de máximo ajuste:[5]

  • La recta de regresión de   sobre  :
 
  • La recta de regresión de   sobre  :
 

La correlación ("r") de las rectas determinará la calidad del ajuste. Si r es cercano o igual a 1, el ajuste será bueno y las predicciones realizadas a partir del modelo obtenido serán muy fiables (el modelo obtenido resulta verdaderamente representativo); si r es cercano o igual a 0, se tratará de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no serán fiables (el modelo obtenido no resulta representativo de la realidad). Ambas rectas de regresión se intersecan en un punto llamado centro de gravedad de la distribución.

Aplicaciones de la regresión lineal

Líneas de tendencia

Una línea de tendencia representa una tendencia en una serie de datos obtenidos a través de un largo período. Este tipo de líneas puede decirnos si un conjunto de datos en particular (como por ejemplo, el PIB, el precio del petróleo o el valor de las acciones) han aumentado o decrementado en un determinado período.[6]​ Se puede dibujar una línea de tendencia a simple vista fácilmente a partir de un grupo de puntos, pero su posición y pendiente se calcula de manera más precisa utilizando técnicas estadísticas como las regresiones lineales. Las líneas de tendencia son generalmente líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la línea.

Medicina

En medicina, las primeras evidencias relacionando la mortalidad con el fumar tabaco[7]​ vinieron de estudios que utilizaban la regresión lineal. Los investigadores incluyen una gran cantidad de variables en su análisis de regresión en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias.

En el caso del tabaquismo, los investigadores incluyeron el estado socioeconómico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educación o posición económica. No obstante, es imposible incluir todas las variables posibles en un estudio de regresión.[8][9]​ En el ejemplo del tabaquismo, un hipotético gen podría aumentar la mortalidad y aumentar la propensión a adquirir enfermedades relacionadas con el consumo de tabaco. Por esta razón, en la actualidad las pruebas controladas aleatorias son consideradas mucho más confiables que los análisis de regresión.

Informática

Ejemplo en JavaScript para regresión lineal:

 
/**  * Linear regression in Javascript  * (c) 2016, Antonio Villamarin  * License GPL  */ var xarray = [ 1, 2, 3, 4, 5 ], yarray = [ 5, 5, 5, 6.8, 9 ], x = y = xy = xx = a = b = resultado = 0, cantidad = xarray.length, futuro = 100; for (i = 0; i < cantidad; i++) { console.log('Dado ' + xarray[i] + ' => ' + yarray[i]); x += xarray[i]; y += yarray[i]; xy += xarray[i]*yarray[i]; xx += xarray[i]*xarray[i]; } b = ((cantidad * xy) - (x * y)) / ((cantidad * xx) - (x * x)); a = (y - (b * x)) / cantidad; if(b != 0) { console.log('Dado ' + futuro + ' => ' + Math.round(a + (b * futuro))); } else { console.log('Dado ' + futuro + ' => Infinito'); } 

Ejemplo de una rutina que utiliza una recta de regresión lineal para proyectar un valor futuro: Código escrito en PHP

<?php //Licencia: GNU/GPL $xarray=array(1, 2, 3, 4, 5 ); //Dias $yarray=array(5, 5, 5, 6.8, 9); //Porcentaje de ejecucion $pm=100; //Valor futuro $x2=0; $y=0; $x=0; $xy=0; $cantidad=count($xarray); for($i=0;$i<$cantidad;$i++){ //Tabla de datos print ($xarray[$i]." ---- ".$yarray[$i]."<br>"); //Calculo de terminos $x2 += $xarray[$i]*$xarray[$i]; $y += $yarray[$i]; $x += $xarray[$i]; $xy += $xarray[$i]*$yarray[$i]; } //Coeficiente parcial de regresion $b=($cantidad*$xy-$x*$y)/($cantidad*$x2-$x*$x); //Calculo del intercepto $a=($y-$b*$x)/$cantidad; //Recta tendencial //y=a+bx //Proyeccion en dias para un 100% de la ejecucion: if ($b!=0) $dias_proyectados=($pm-$a)/$b; else $dias_proyectados=999999; //Infinitos $dp=round($dias_proyectados,0); if($dp<=$pm) print $dp."---> Culmina antes de los $pm dias <br>"; if($dp >$pm) print $dp ."---> ALARMA: No culmina antes de los $pm dias <br>"; ?> 


Es también posible entrenar un regresor lineal en Python, utilizando la librería sklearn:[10]

from sklearn.linear_model import LinearRegression # Se cargan unos datos para entrenar el modelo # X = ... # Y = ... # Regresor lineal modelo = LinearRegression() # Se entrena el modelo con los datos modelo.fit(X, Y) # Una vez ha sido entrenado, se puede calcular el resultado # para una nueva entrada Y_prediccion = modelo.predict(X) 

Véase también

Referencias

  1. C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
  2. Curvefit.com (en inglés)
  3. "Fórmulas", Probabilidad y Estadística. Cs. Básicas. U.D.B. Matemática. Universidad Tecnológica Nacional, Facultad Regional Buenos Aires. Editorial CEIT-FRBA. (Código BM2BT2)
  4. Técnicas de regresión: Regresión Lineal Múltiple. Pértega Díaz, S., Pita Fernández, S. Unidad de Epidemiología Clínica y Bioestadística. Complejo Hospitalario de La Coruña (España)
  5. Apunte sobre Rectas de regresión. Ministerio de Educación y Ciencia. Gobierno de España.
  6. , Paritech (en inglés)
  7. Doll, R., Wheatley, K., Gray, R. et al. «Mortality in relation to smoking: 40 years' observations on male British doctors .» BMJ 1994;309:901-911 (8 de octubre).
  8. "Environmental Tobacco Smoke and Adult Asthma" Division of Pulmonary and Critical Care Medicine, Division of Occupational and Environmental Medicine; Department of Medicine, Institute for Health Policy Studies; and Department of Epidemiology and Biostatistics, Universidad de California, San Francisco, California. (en inglés)
  9. Regalado-Pineda, Justino; Alejandro Gómez-Gómez; Javier Ramírez-Acosta; Juan Carlos Vázquez-García. «Efecto del tabaquismo, los síntomas respiratorios y el asma sobre la espirometría de adultos de la Ciudad de México.»
  10. Cursos Python. «Machine Learning para principiantes, regresión lineal en sklearn». Cursos Python. Consultado el 13 de mayo de 2020. 

Bibliografía

  • Canavos, George C.; Probabilidad y Estadística. Aplicaciones y Métodos. McGraw-Hill. México. ISBN 9684518560.
  • Devore, Jay L.; Probabilidad y Estadística para Ingeniería y Ciencias. International Thomson Editores. México. ISBN 9706864571.
  • Walpole, Ronald E.; Raymond, H.; Myers, Sharon L.; Probabilidad y Estadística para Ingenieros. Prentice-Hall Hispanoamericana, S.A. México. ISBN 9701702646.

Enlaces externos

  • Cálculo de regresiones lineales en línea. (en inglés)
  • Ajuste de curvas y superficies en línea. (en inglés)
  • xuru.org Herramientas de regresión lineal en línea. (en inglés)
  • [1] (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última). Simulación de la recta de regresión de una variable bidimensional continua con R (lenguaje de programación)
  •   Datos: Q10861030
  •   Multimedia: Linear regression

regresión, lineal, para, otros, usos, este, término, véase, función, lineal, desambiguación, estadística, regresión, lineal, ajuste, lineal, modelo, matemático, usado, para, aproximar, relación, dependencia, entre, variable, dependiente, displaystyle, displays. Para otros usos de este termino vease Funcion lineal desambiguacion En estadistica la regresion lineal o ajuste lineal es un modelo matematico usado para aproximar la relacion de dependencia entre una variable dependiente Y displaystyle Y m displaystyle m variables independientes X i displaystyle X i con m Z displaystyle m in mathbb Z y un termino aleatorio e displaystyle varepsilon Este modelo puede ser expresado como Ejemplo de una regresion lineal con una variable dependiente y una variable independiente Y b 0 b 1 X 1 b m X m e displaystyle Y beta 0 beta 1 X 1 cdots beta m X m varepsilon donde Y displaystyle Y es la variable dependiente o variable de respuesta X 1 X 2 X m displaystyle X 1 X 2 dots X m son las variables explicativas independientes o regresoras b 0 b 1 b 2 b m displaystyle beta 0 beta 1 beta 2 dots beta m son los parametros del modelo miden la influencia que las variables explicativas tienen sobre el regrediendo el termino b 0 displaystyle beta 0 es la interseccion o termino constante las b i i 1 displaystyle beta i i geq 1 son los parametros respectivos a cada variable independiente y m displaystyle m es el numero de parametros independientes a tener en cuenta en la regresion La regresion lineal puede ser contrastada con la regresion no lineal Indice 1 Historia 2 El modelo de regresion lineal 2 1 Hipotesis del modelo de regresion lineal clasico 3 Tipos de modelos de regresion lineal 3 1 Regresion lineal simple 3 1 1 Estimacion de los parametros 3 2 Regresion lineal multiple 3 2 1 Estimacion de los parametros 3 3 Rectas de regresion 4 Aplicaciones de la regresion lineal 4 1 Lineas de tendencia 4 2 Medicina 4 3 Informatica 5 Vease tambien 6 Referencias 6 1 Bibliografia 6 2 Enlaces externosHistoria EditarLa primera forma de regresion lineal documentada fue el metodo de los minimos cuadrados que fue publicada por Legendre en 1805 Gauss publico un trabajo en donde desarrollaba de manera mas profunda el metodo de los minimos cuadrados 1 y en donde se incluia una version del teorema de Gauss Markov El termino regresion se utilizo por primera vez en el estudio de variables antropometricas al comparar la estatura de padres e hijos donde resulto que los hijos cuyos padres tenian una estatura muy superior al valor medio tendian a igualarse a este mientras que aquellos cuyos padres eran muy bajos tendian a reducir su diferencia respecto a la estatura media es decir regresaban al promedio 2 La constatacion empirica de esta propiedad se vio reforzada mas tarde con la justificacion teorica de ese fenomeno El termino lineal se emplea para distinguirlo del resto de tecnicas de regresion que emplean modelos basados en cualquier clase de funcion matematica Los modelos lineales son una explicacion simplificada de la realidad mucho mas agiles y con un soporte teorico mucho mas extenso por parte de la matematica y la estadistica Pero bien como se ha dicho se puede usar el termino lineal para distinguir modelos basados en cualquier clase de aplicacion El modelo de regresion lineal EditarEl modelo lineal relaciona la variable dependiente Y displaystyle Y con m displaystyle m variables regresoras X j displaystyle X j con j 1 2 m displaystyle j 1 2 dots m o cualquier transformacion de estas que generen un hiperplano de parametros b i displaystyle beta i desconocidos Y b 0 b 1 X 1 b m X m e b 0 j 1 m b j X j e displaystyle begin aligned Y amp beta 0 beta 1 X 1 cdots beta m X m varepsilon amp beta 0 sum j 1 m beta j X j varepsilon end aligned donde e displaystyle varepsilon es una variable aleatoria que recoge todos aquellos factores de la realidad no controlables u observables y que por tanto se asocian con el azar y es la que confiere al modelo su caracter estocastico En el caso mas sencillo con una sola variable explicita el hiperplano es una recta Y b 0 b 1 X 1 e displaystyle Y beta 0 beta 1 X 1 varepsilon El problema de la regresion consiste en elegir unos valores determinados para los parametros desconocidos b j displaystyle beta j de modo que la ecuacion quede completamente especificada Para ello se necesita un conjunto de observaciones o una muestra proveniente de este modelo En una observacion i displaystyle i esima i 1 2 n displaystyle i 1 2 dots n cualquiera se registra el comportamiento simultaneo de la variable dependiente y las variables explicitas las perturbaciones aleatorias se suponen no observables y i b 0 j 1 m b j x i j e i displaystyle y i beta 0 sum j 1 m beta j x ij varepsilon i Los valores escogidos como estimadores de los parametros b j displaystyle hat beta j son los coeficientes de regresion sin que se pueda garantizar que coincidan con parametros reales del proceso generador Por tanto en Y i b 0 j 1 m b j X i j e i displaystyle Y i beta 0 sum j 1 m hat beta j X ij hat varepsilon i Los valores e i displaystyle hat varepsilon i son por su parte estimaciones o errores de la perturbacion aleatoria Hipotesis del modelo de regresion lineal clasico Editar Media cero E e i 0 displaystyle operatorname E varepsilon i 0 Para cada valor de X displaystyle X la perturbacion tomara distintos valores de forma aleatoria pero no tomara sistematicamente valores positivos o negativos sino que se supone tomara algunos valores mayores que cero y otros menores que cero de tal forma que su valor esperado sea cero Homocedasticidad Var e i s 2 lt displaystyle text Var varepsilon i sigma 2 lt infty para todo i displaystyle i Todos los terminos de la perturbacion tienen la misma varianza que es desconocida La dispersion de cada e t displaystyle varepsilon t en torno a su valor esperado es siempre la misma Incorrelacion o independencia Cov e i e j 0 displaystyle text Cov varepsilon i varepsilon j 0 para todo i j displaystyle i neq j Las covarianzas entre las distintas pertubaciones son nulas lo que quiere decir que no estan correlacionadas Esto implica que el valor de la perturbacion para cualquier observacion muestral no viene influenciado por los valores de las perturbaciones correspondientes a otras observaciones muestrales Regresores estocasticos Los sistemas de ecuaciones simultaneas describen el comportamiento de un vector de variables endogenas en funcion de un vector de variables exogenas Los regresores estocasticos surgen del hecho de que la variable endogena de una ecuacion puede entrar en otra como variable explicativa Independencia lineal No existen relaciones lineales exactas entre los regresores T gt k 1 displaystyle T gt k 1 Suponemos que no existen errores de especificacion en el modelo ni errores de medida en las variables explicativas Normalidad de las perturbaciones e N 0 s 2 displaystyle varepsilon sim N 0 sigma 2 Tipos de modelos de regresion lineal EditarExisten diferentes tipos de regresion lineal que se clasifican de acuerdo a sus parametros Regresion lineal simple Editar Este modelo solo esta conformado por dos variables estadisticas llamadas X displaystyle X y Y displaystyle Y Para la regresion lineal simple se asume que X displaystyle X y Y displaystyle Y se relacionan mediante la relacion funcional 3 Y b 0 b 1 X e displaystyle Y beta 0 beta 1 X varepsilon donde b 0 b 1 R displaystyle beta 0 beta 1 in mathbb R son constantes desconocidas llamadas coeficientes de regresion Estimacion de los parametros Editar Dado que los parametros b 0 displaystyle beta 0 y b 1 displaystyle beta 1 son constantes desconocidas estas deben estimarse mediante los datos de la muestra supongase que se tiene n displaystyle n datos x i y i i 1 n displaystyle x i y i i 1 n se estimaran los parametros utilizando el metodo de minimos cuadrados Se estiman b 0 displaystyle beta 0 y b 1 displaystyle beta 1 tal que la suma de los cuadrados de las diferencias entre las observaciones y i displaystyle y i y la recta de regresion sea minima esto es buscamos minimizar la funcion error cuadratico dada por S b 0 b 1 i 1 n y i b 0 b 1 x i 2 displaystyle S beta 0 beta 1 sum i 1 n left y i beta 0 beta 1 x i right 2 La funcion de error cuadratico S b 0 b 1 displaystyle S beta 0 beta 1 alcanza un minimo en el punto b 0 b 1 displaystyle left hat beta 0 hat beta 1 right tal que S b 0 b 0 b 1 S b 1 b 0 b 1 0 displaystyle left frac partial S partial beta 0 right hat beta 0 hat beta 1 left frac partial S partial beta 1 right hat beta 0 hat beta 1 0 entonces derivando respecto a b 0 displaystyle beta 0 y b 1 displaystyle beta 1 evaluando en b 0 displaystyle hat beta 0 y b 1 displaystyle hat beta 1 e igualando a cero obtenemos el siguiente sistema de ecuaciones 2 i 1 n y i b 0 b 1 x i 0 2 i 1 n y i b 0 b 1 x i x i 0 displaystyle begin cases displaystyle 2 sum i 1 n left y i hat beta 0 hat beta 1 x i right 0 displaystyle 2 sum i 1 n left y i hat beta 0 hat beta 1 x i right x i 0 end cases estas dos ecuaciones son conocidas como ecuaciones normales la solucion de dicho sistema de ecuaciones esta dada por 3 b 1 i 1 n x i y i n x y i 1 n x i 2 1 n i 1 n x i 2 b 0 i 1 n x i 2 i 1 n y i i 1 n x i y i i 1 n x i n i 1 n x i 2 i 1 n x i 2 y b 1 x displaystyle begin aligned hat beta 1 amp frac displaystyle sum i 1 n x i y i n bar x bar y displaystyle sum i 1 n x i 2 frac 1 n left sum i 1 n x i right 2 hat beta 0 amp frac displaystyle sum i 1 n x i 2 sum i 1 n y i sum i 1 n x i y i sum i 1 n x i displaystyle n sum i 1 n x i 2 left sum i 1 n x i right 2 bar y hat beta 1 bar x end aligned La interpretacion del parametro medio b 1 displaystyle beta 1 es que un incremento en Xi de una unidad Yi incrementara en b 1 displaystyle beta 1 Luego el modelo ajustado de regresion lineal simple es y b 0 b 1 x displaystyle hat y hat beta 0 hat beta 1 x Regresion lineal multiple Editar La regresion lineal permite analizar la relacion entre dos o mas variables a traves de ecuaciones lo que se denomina regresion multiple o regresion lineal multiple Constantemente en la practica de la investigacion estadistica se encuentran variables que de alguna manera estan relacionadas entre si por lo que es posible que una de las variables puedan relacionarse matematicamente en funcion de otra u otras variables Este modelo cuenta con varias variables regresoras por lo que cuenta con varios parametros para la regresion lineal multiple se asume que la variable de respuesta Y displaystyle Y se relaciona con las variables regresoras X 0 X 1 X m displaystyle X 0 X 1 dots X m mediante la relacion funcional 4 Y b 0 b 1 X 1 b 2 X 2 b m X m e b 0 j 1 m b j X j e displaystyle begin aligned Y amp beta 0 beta 1 X 1 beta 2 X 2 cdots beta m X m varepsilon amp beta 0 sum j 1 m beta j X j varepsilon end aligned donde los parametros b j j 0 1 m displaystyle beta j forall j in 0 1 dots m son llamados coeficientes del modelo de regresion multiple Supongamos que se tiene una muestra de tamano n displaystyle n dada por x i j y i displaystyle x ij y i con j 1 2 m displaystyle j 1 2 dots m donde x i j displaystyle x ij denota el i displaystyle i esimo valor observado en el regresor X j displaystyle X j y y i displaystyle y i denota la i displaystyle i esima observacion de Y displaystyle Y entonces el modelo toma la forma y i b 0 j 1 m b j x i j e i b 0 b 1 x i 1 b 2 x i 2 b m x i m e i displaystyle begin aligned y i amp beta 0 sum j 1 m beta j x ij varepsilon i amp beta 0 beta 1 x i1 beta 2 x i2 cdots beta m x im varepsilon i end aligned donde e i displaystyle varepsilon i es el error asociado a la i displaystyle i esima medicion del valor X j displaystyle X j y sigue los supuestos usuales de modo que e i N 0 s 2 displaystyle varepsilon i sim N 0 sigma 2 media cero varianza constante e igual a s 2 displaystyle sigma 2 y Cov e i e j 0 displaystyle operatorname Cov varepsilon i varepsilon j 0 con i j displaystyle i neq j Estimacion de los parametros Editar Para estimar los parametros del modelo se puede utilizar el metodo de minimos cuadrados en este caso la funcion de error cuadratico esta dada por S b 0 b 1 b m i 1 n e i 2 i 1 n y i b 0 j 1 m b j x i j 2 displaystyle begin aligned S beta 0 beta 1 dots beta m amp sum i 1 n varepsilon i 2 amp sum i 1 n left y i beta 0 sum j 1 m beta j x ij right 2 end aligned la cual deseamos minimizar Los estimadores por minimos cuadrados denotados por b 0 b 1 b m displaystyle hat beta 0 hat beta 1 dots hat beta m deben satisfacer S b j b 0 b m 0 displaystyle left frac partial S partial beta j right hat beta 0 dots hat beta m 0 para j 0 1 m displaystyle j 0 1 dots m Resolver este sistema con m 1 displaystyle m 1 ecuaciones de forma analitica es complicado por lo que se recurre a escribir el modelo de regresion lineal multiple Y b 0 b 1 X 1 b 2 X 2 b m X m e displaystyle Y beta 0 beta 1 X 1 beta 2 X 2 cdots beta m X m varepsilon en forma matricial como Y X b e displaystyle Y X beta varepsilon siendo Y y 1 y 2 y n X 1 x 11 x 12 x 1 m 1 x 21 x 22 x 2 m 1 x n 1 x n 2 x n m displaystyle Y begin pmatrix y 1 y 2 vdots y n end pmatrix qquad qquad X begin pmatrix 1 amp x 11 amp x 12 amp cdots amp x 1m 1 amp x 21 amp x 22 amp cdots amp x 2m vdots amp vdots amp vdots amp ddots amp vdots 1 amp x n1 amp x n2 amp cdots amp x nm end pmatrix b b 0 b 1 b m e e 1 e 2 e n displaystyle beta begin pmatrix beta 0 beta 1 vdots beta m end pmatrix qquad qquad varepsilon begin pmatrix varepsilon 1 varepsilon 2 vdots varepsilon n end pmatrix donde Y R n 1 X R n m 1 b R m 1 1 displaystyle Y in mathbb R n times 1 X in mathbb R n times m 1 beta in mathbb R m 1 times 1 y e R n 1 displaystyle varepsilon in mathbb R n times 1 En forma matricial la funcion de error cuadratico puede ser escrita como S b i 1 n e i 2 e T e Y X b T Y X b displaystyle begin aligned S beta amp sum i 1 n varepsilon i 2 amp varepsilon T varepsilon amp Y X beta T Y X beta end aligned Los estimadores por minimos cuadrados deben satisfacer S b b 0 displaystyle left frac partial S partial beta right hat beta mathbf 0 donde b R m 1 1 displaystyle hat beta in mathbb R m 1 times 1 denota el vector que contiene a los estimadores y 0 displaystyle mathbf 0 denota un vector con ceros Puede verificarse que la condicion anterior se reduce a X T X b X T Y displaystyle X T X hat beta X T Y Si la matriz inversa X T X 1 displaystyle X T X 1 existe entonces el estimador por minimos cuadrados esta dado por b X T X 1 X T Y displaystyle hat beta X T X 1 X T Y Por lo que el modelo ajustado de regresion esta dado por y X T b b 0 j 1 m b j x j b 0 b 1 x 1 b m x m displaystyle begin aligned hat y amp X T hat beta amp hat beta 0 sum j 1 m hat beta j x j amp hat beta 0 hat beta 1 x 1 cdots hat beta m x m end aligned Rectas de regresion Editar Las rectas de regresion son las rectas que mejor se ajustan a la nube de puntos o tambien llamado diagrama de dispersion generada por una distribucion conjunta Matematicamente son posibles dos rectas de maximo ajuste 5 La recta de regresion de Y displaystyle Y sobre X displaystyle X y y s x y s x 2 x x displaystyle y bar y frac sigma xy sigma x 2 x bar x La recta de regresion de X displaystyle X sobre Y displaystyle Y x x s x y s y 2 y y displaystyle x bar x frac sigma xy sigma y 2 y bar y La correlacion r de las rectas determinara la calidad del ajuste Si r es cercano o igual a 1 el ajuste sera bueno y las predicciones realizadas a partir del modelo obtenido seran muy fiables el modelo obtenido resulta verdaderamente representativo si r es cercano o igual a 0 se tratara de un ajuste malo en el que las predicciones que se realicen a partir del modelo obtenido no seran fiables el modelo obtenido no resulta representativo de la realidad Ambas rectas de regresion se intersecan en un punto llamado centro de gravedad de la distribucion Aplicaciones de la regresion lineal EditarLineas de tendencia Editar Vease tambien Tendencia Una linea de tendencia representa una tendencia en una serie de datos obtenidos a traves de un largo periodo Este tipo de lineas puede decirnos si un conjunto de datos en particular como por ejemplo el PIB el precio del petroleo o el valor de las acciones han aumentado o decrementado en un determinado periodo 6 Se puede dibujar una linea de tendencia a simple vista facilmente a partir de un grupo de puntos pero su posicion y pendiente se calcula de manera mas precisa utilizando tecnicas estadisticas como las regresiones lineales Las lineas de tendencia son generalmente lineas rectas aunque algunas variaciones utilizan polinomios de mayor grado dependiendo de la curvatura deseada en la linea Medicina Editar En medicina las primeras evidencias relacionando la mortalidad con el fumar tabaco 7 vinieron de estudios que utilizaban la regresion lineal Los investigadores incluyen una gran cantidad de variables en su analisis de regresion en un esfuerzo por eliminar factores que pudieran producir correlaciones espurias En el caso del tabaquismo los investigadores incluyeron el estado socioeconomico para asegurarse que los efectos de mortalidad por tabaquismo no sean un efecto de su educacion o posicion economica No obstante es imposible incluir todas las variables posibles en un estudio de regresion 8 9 En el ejemplo del tabaquismo un hipotetico gen podria aumentar la mortalidad y aumentar la propension a adquirir enfermedades relacionadas con el consumo de tabaco Por esta razon en la actualidad las pruebas controladas aleatorias son consideradas mucho mas confiables que los analisis de regresion Informatica Editar Ejemplo en JavaScript para regresion lineal y a b x x y a b E n c o n t r a r b b c a n t i d a d x y x y c a n t i d a d x x x x E n c o n t r a r a a y b x c a n t i d a d displaystyle begin cases y a bx amp Rightarrow amp x cfrac y a b Encontrar quad b amp Rightarrow amp b cfrac cantidad xy x y cantidad xx x x Encontrar quad a amp Rightarrow amp a cfrac y b x cantidad end cases Linear regression in Javascript c 2016 Antonio Villamarin License GPL var xarray 1 2 3 4 5 yarray 5 5 5 6 8 9 x y xy xx a b resultado 0 cantidad xarray length futuro 100 for i 0 i lt cantidad i console log Dado xarray i gt yarray i x xarray i y yarray i xy xarray i yarray i xx xarray i xarray i b cantidad xy x y cantidad xx x x a y b x cantidad if b 0 console log Dado futuro gt Math round a b futuro else console log Dado futuro gt Infinito Ejemplo de una rutina que utiliza una recta de regresion lineal para proyectar un valor futuro Codigo escrito en PHP lt php Licencia GNU GPL xarray array 1 2 3 4 5 Dias yarray array 5 5 5 6 8 9 Porcentaje de ejecucion pm 100 Valor futuro x2 0 y 0 x 0 xy 0 cantidad count xarray for i 0 i lt cantidad i Tabla de datos print xarray i yarray i lt br gt Calculo de terminos x2 xarray i xarray i y yarray i x xarray i xy xarray i yarray i Coeficiente parcial de regresion b cantidad xy x y cantidad x2 x x Calculo del intercepto a y b x cantidad Recta tendencial y a bx Proyeccion en dias para un 100 de la ejecucion if b 0 dias proyectados pm a b else dias proyectados 999999 Infinitos dp round dias proyectados 0 if dp lt pm print dp gt Culmina antes de los pm dias lt br gt if dp gt pm print dp gt ALARMA No culmina antes de los pm dias lt br gt gt Es tambien posible entrenar un regresor lineal en Python utilizando la libreria sklearn 10 from sklearn linear model import LinearRegression Se cargan unos datos para entrenar el modelo X Y Regresor lineal modelo LinearRegression Se entrena el modelo con los datos modelo fit X Y Una vez ha sido entrenado se puede calcular el resultado para una nueva entrada Y prediccion modelo predict X Vease tambien EditarHomoscedasticidad Regresion logistica Modelos de regresion multiple postulados y no postulados Regresion segmentada Econometria Minimos cuadrados Regularizacion de Tikhonov Cuarteto de Anscombe Capital Asset Pricing Model Regresion simpleReferencias Editar C F Gauss Theoria combinationis observationum erroribus minimis obnoxiae 1821 1823 Introduction to linear regression Curvefit com en ingles a b Formulas Probabilidad y Estadistica Cs Basicas U D B Matematica Universidad Tecnologica Nacional Facultad Regional Buenos Aires Editorial CEIT FRBA Codigo BM2BT2 Tecnicas de regresion Regresion Lineal Multiple Pertega Diaz S Pita Fernandez S Unidad de Epidemiologia Clinica y Bioestadistica Complejo Hospitalario de La Coruna Espana Apunte sobre Rectas de regresion Ministerio de Educacion y Ciencia Gobierno de Espana Utilizacion de las lineas de tendencia Paritech en ingles Doll R Wheatley K Gray R et al Mortality in relation to smoking 40 years observations on male British doctors BMJ 1994 309 901 911 8 de octubre Environmental Tobacco Smoke and Adult Asthma Division of Pulmonary and Critical Care Medicine Division of Occupational and Environmental Medicine Department of Medicine Institute for Health Policy Studies and Department of Epidemiology and Biostatistics Universidad de California San Francisco California en ingles Regalado Pineda Justino Alejandro Gomez Gomez Javier Ramirez Acosta Juan Carlos Vazquez Garcia Efecto del tabaquismo los sintomas respiratorios y el asma sobre la espirometria de adultos de la Ciudad de Mexico Cursos Python Machine Learning para principiantes regresion lineal en sklearn Cursos Python Consultado el 13 de mayo de 2020 Bibliografia Editar Canavos George C Probabilidad y Estadistica Aplicaciones y Metodos McGraw Hill Mexico ISBN 9684518560 Devore Jay L Probabilidad y Estadistica para Ingenieria y Ciencias International Thomson Editores Mexico ISBN 9706864571 Walpole Ronald E Raymond H Myers Sharon L Probabilidad y Estadistica para Ingenieros Prentice Hall Hispanoamericana S A Mexico ISBN 9701702646 Enlaces externos Editar Calculo de regresiones lineales en linea en ingles ZunZun com Ajuste de curvas y superficies en linea en ingles xuru org Herramientas de regresion lineal en linea en ingles 1 enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Simulacion de la recta de regresion de una variable bidimensional continua con R lenguaje de programacion Datos Q10861030 Multimedia Linear regression Obtenido de https es wikipedia org w index php title Regresion lineal amp oldid 139002617, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos