fbpx
Wikipedia

Mínimos cuadrados ordinarios

En estadística, los mínimos cuadrados ordinarios (MCO) o mínimos cuadrados lineales es el nombre de un método para encontrar los parámetros poblacionales en un modelo de regresión lineal. Este método minimiza la suma

las distancias verticales entre las respuestas observadas en la muestra y las respuestas del modelo. El parámetro resultante puede expresarse a través de una fórmula sencilla, especialmente en el caso de un único regresor. 

El método MCO, siempre y cuando se cumplan los supuestos clave, será consistente cuando los regresores sean exógenos y no haya perfecta multicolinealidad, este será óptimo en la clase de parámetros lineales cuando los errores sean homocedásticos y además no haya autocorrelación. En estas condiciones, el método de MCO proporciona un estimador insesgado de varianza mínima siempre que los errores tengan varianzas finitas. Bajo la suposición adicional de que los errores se distribuyen normalmente, el estimador MCO es el de máxima verosimilitud. Los MCO se utilizan en economía (econometría) y en la ingeniería eléctrica (teoría de control y procesamiento de señales), entre muchas áreas de aplicación.

Modelo lineal

Supongamos que los datos se componen de n observaciones { y
i
, x
i
 }n
i=1
. Cada observación incluye una respuesta yi escalar y un vector de regresores o predictores xi. En un modelo de regresión lineal la variable de respuesta es una función lineal de p variables explicativas:

 

donde β es un vector de parámetros desconocidos 1 ; εi es un escalar de variables no observadas aleatorias (errores) que dan cuenta de la discrepancia entre la realidad observada yi y los "resultados previstos" x′iβ, y denota la matriz traspuesta, de modo que x′ β es el producto escalar entre los vectores x y el β. Este modelo también se puede escribir en notación matricial como

 

en donde y y ε son vectores , y X es una matriz de regresores n×p , a lo que también se le llama la matriz de diseño. Como regla general, el término constante se incluye siempre en el conjunto de regresores X, por ejemplo, mediante la adopción dexi1 = 1 para todo i = 1, …, n. El coeficiente β1 correspondiente a este regresor se le llama el intercepto. Puede haber alguna relación entre los regresores. Por ejemplo, el regresor tercero puede ser el cuadrado del segundo regresor. En este caso (suponiendo que el primer regresor es constante) tenemos un modelo de segundo grado en el regresor segundo. Pero esto todavía se considera un modelo lineal, ya que es lineal en las βs.

Supuestos clave

Existen tres supuestos que deben cumplirse para llevar a cabo una regresión lineal, estos son:

  1. La varianza de los errores debe ser homocedastica.
  2. Las variables explicativas deben ser ortogonales a los residuos, es decir, no comparten información.
  3. Los errores no deben estar correlacionados entre sí.

Hay varios diferentes marcos en los que el modelo de regresión lineal pueden ser tratado con el fin de hacer que la técnica de MCO sea aplicable. Cada una de estas configuraciones produce las mismas fórmulas y los mismos resultados, la única diferencia es la interpretación y los supuestos que han de imponerse a fin de que el método pueda dar resultados significativos. La elección de la estructura aplicable depende principalmente de la naturaleza de los datos a la mano, y en la tarea de inferencia que se tiene que realizar.

Una de las líneas de diferencia en la interpretación es si tratar los regresores como variables aleatorias, o como constantes predefinidas. En el primer caso ("diseño aleatorio) los regresores de xi son aleatorios y se toman muestras del conjunto con los yi de alguna población, como en un estudio observacional. Este enfoque permite un estudio más natural de las propiedades asintóticas de los estimadores. En la otra interpretación (diseño fijo), los regresores de X se tratan como constantes conocidas establecidas por un diseño, e y se muestrea condicionalmente en los valores de X como en un experimento. A efectos prácticos, esta distinción a menudo carece de importancia, ya que la estimación y la inferencia se lleva a cabo mientras se condiciona en X. Todos los resultados consignados en este artículo se encuentran dentro del marco de diseño aleatorio.

Modelo clásico de regresión lineal

El modelo clásico se centra en las "muestras finitas" estimación y la inferencia, lo que significa que el número de observaciones n es fijo. Esto contrasta con otros enfoques, que estudian el comportamiento asintótico de MCO, y en el que el número de observaciones se hace tender hasta el infinito.

  • Especificación Correcta. La forma funcional lineal se ha especificado correctamente.
  • Exogeneidad estricta..Los errores en la regresión deben tener media condicionada cero.[1]
     
    La consecuencia inmediata de la hipótesis de exogeneidad es que los errores han significar cero: E[ε] = 0, y que los regresores no están correlacionadas con los errores: E[X′ε] = 0. El supuesto de exogeneidad es fundamental para la teoría de MCO. Si se mantiene entonces las variables regresoras se llaman exógeno. Si no es así, entonces los regresores que están correlacionadas con el término de error se llaman endógenas,[2]​ y luego las estimaciones MCO dejan de ser válidas. En tal caso, el método de variables instrumentales se pueden utilizar para llevar a cabo la inferencia.
  • No hay dependencia lineal.. Los regresores en X todos deben ser linealmente independientes. Matemáticamente esto significa que la matriz X deberá tener rango de columna completa prácticamente segura.
     
    Por lo general, se supone también que los regresores tienen momentos finitos de hasta al menos segundo. En tal caso, la matriz Qxx = E [X'X / n] será finita y positiva semi-definido. Cuando esta suposición se viola los regresores se llama linealmente dependiente o multicollinear perfectamente. En tal caso, el valor de la β coeficiente de regresión no puede aprenderse, aunque predicción de los valores de y es posible que los nuevos valores de las variables independientes que se encuentran en el mismo subespacio linealmente dependientes.
  • Errores esféricos[2]
     
    donde A es un n × n matriz de identidad, y σ2 es un parámetro que determina la varianza de cada observación. Esta σ2 se considera un parámetro molestia en el modelo, aunque por lo general, se estima. Si esta suposición se viola entonces los estimadores MCO siguen siendo válidos, pero ya no es eficaz. Es costumbre de dividir esta suposición en dos partes:
    • Homocedasticidad :E [εi2 | X] = σ2, lo que significa que el término de error tiene la misma varianza σ2 en cada observación. Cuando este requisito se viola esto se llama heterocedasticidad, en tal caso, un estimador más eficiente sería mínimos cuadrados ponderados. Si los errores tienen varianza infinita entonces las estimaciones MCO también tendrá varianza infinita (aunque por la ley de los grandes números que no obstante se tienden hacia los valores verdaderos, siempre que los errores tienen media cero). En este caso, técnicas robustas de estimación se recomiendan.
    • Autocorrelación no:los errores no están correlacionados entre observaciones: E [εiεj | X] = 0 para i ≠ j. Este supuesto puede ser violado en el contexto de los datos de series de tiempo, datos de panel, muestras de racimo, datos jerárquicos, datos de medidas repetidas, datos longitudinales, y otros datos con dependencias. En tales casos, mínimos cuadrados generalizados ofrece una mejor alternativa que el MCO.
    • Normality: A veces se supone, además, que los errores tienen distribución normal multivariante distribución normal condicional en los regresores:
     
    Este supuesto no es necesario para la validez del método MCO, aunque ciertos muestra adicionales finita propiedades se pueden establecer en el caso cuando lo hace (especialmente en el área de las pruebas de hipótesis). También cuando los errores son normales, el estimador MCO es equivalente a MLE de máxima probabilidad, y por lo tanto es asintóticamente eficiente en la clase de todos los estimadores regulares.

    Independiente e idénticamente distribuido

    En algunas aplicaciones, especialmente con datos de corte transversal, un supuesto adicional es impuesto - que todas las observaciones son independientes e idénticamente distribuidas (iid). Esto significa que todas las observaciones se toman de una muestra aleatoria que hace que todos los supuestos mencionados anteriormente sean más simples y más fáciles de interpretar. Además, este marco permite establecer resultados asintóticos (como el tamaño de la muestra n → ∞), que se entiende como una posibilidad teórica de ir a tener nuevas observaciones independientes de los datos en un proceso de generación de datos. La lista de las hipótesis en este caso es:

    • Observaciones iid: (xi, yi) son independientes entre sí, y tiene la misma distribución, xj, yj) para todo i ≠ j;
    • No hay multicolinealidad perfecta: Qxx = E[ xix′i ] es una matriz definida positiva ;
    • Exogeneidad: E[ εi | xi ] = 0;
    • Homocedasticidad: Var[ εi | xi ] = σ2.

    Modelo de series de tiempo

    • El proceso estocástico {xi, yi} es estacionario y ergódica ;
    • Los regresores están predeterminados: E[xiεi] = 0 for all i = 1, …, n;
    • La p×p matriz Qxx es de rango completo, y por lo tanto definida positiva ;
    • {xiεi} es una secuencia de diferencia martingala , con una matriz finita de segundos momentos Qxxε² = E[ εi2xix′i ].

    Estimación

    Supongamos que b es un valor de "candidato" para el parámetro β. La cantidad yixib se denomina residual para la i-ésima observación, mide la distancia vertical entre el punto de datos (xi, yi) y el hiperplano y = x′b, y por lo tanto se determina el grado de ajuste entre los datos reales y el modelo. La suma de cuadrados de los residuos (SSR) (también llamada la suma de cuadrados del error (ESS) o suma residual de cuadrados (RSS))[3]​ es una medida del ajuste del modelo general:

     

    donde T denota la matriz de transposición . El valor de b que minimiza esta suma se llama el estimador MCO de β. La función S (b) es cuadrática en b con definida positiva de Hesse , y por lo tanto esta función posee un mínimo global único en   , Que puede ser dada por la fórmula explícita:[4]

     

    o de manera equivalente en forma de matriz,

     

    Después hemos estimado β, los valores ajustados (o valores previstos) de la regresión se

     

    donde P =  es la matriz de proyección en el espacio generado por las columnas de X. Esta matriz P también a veces se llama la matriz sombrero porque "pone un sombrero" a la variable y. Otra matriz, estrechamente relacionado con P es el aniquilador matriz M = I n - P, se trata de una matriz de proyección sobre el espacio ortogonal a X. Tanto las matrices P y M son simétricas e idempotente (lo que significa que P 2 = P), y se refieren a la matriz de datos X a través de identidades PX y MX = X = 0. [7] Matriz M crea los residuos de la regresión:

     

    El uso de estos residuos se puede estimar el valor de σ2:

     

    El numerador, np, son los grados de libertad estadísticos . La primera cantidad, s 2, es la estimación OLS para σ 2, mientras que el segundo, \ Scriptstyle \ hat \ sigma ^ 2 , Es la estimación MLE para σ 2. Los dos estimadores son bastante similares en muestras grandes, el primero es siempre imparcial , mientras que el segundo está sesgado, pero reduce al mínimo el error cuadrático medio del estimador. En la práctica s 2 se utiliza con más frecuencia, ya que es más conveniente para la prueba de hipótesis. La raíz cuadrada de 2 s se denomina el error estándar de la regresión (SER), o el error estándar de la ecuación (VER).[5]

    Es común para evaluar la bondad del ajuste de la regresión por mínimos cuadrados mediante la comparación de la cantidad de la variación inicial en la muestra se puede reducir mediante la regresión en X. El coeficiente de determinación R 2 se define como una proporción de "explicado" varianza de la varianza "total" de la variable dependiente y: [8]

     

    donde TSS es la suma total de los cuadrados de la variable dependiente, L = I n - 11 '/ n, y 1 es una n × 1 vector de unos. (L es un "matriz de centrado", que es equivalente a la regresión en una constante;. Simplemente resta la media de una variable) A fin de que R2 sea significativo, la matriz X de datos sobre regresores debe contener un vector columna de unos para representar la constante cuyo coeficiente es el intercepto de regresión. En ese caso, R2 siempre será un número entre 0 y 1, con valores cercanos a 1 que indica un buen grado de ajuste.

    Modelo de regresión simple

    Si la matriz de datos X contiene sólo dos variables: una constante, y un regresor escalar x i, entonces esto se llama el "modelo de regresión simple". [9] Este caso se considera a menudo en las clases de estadísticas para principiantes, ya que ofrece mucho más simple fórmulas incluso adecuados para el cálculo manual. Los vectores de parámetros de tal modelo es de 2 dimensiones, y se denota comúnmente como (α, β):

     

    Las estimaciones de mínimos cuadrados en este caso vienen dadas por fórmulas simples

     

    Derivaciones alternativas

    En el apartado anterior los mínimos cuadrados estimador \ Scriptstyle \ hat \ beta se obtuvo como un valor que minimiza la suma de los residuos al cuadrado del modelo. Sin embargo, también es posible obtener el mismo estimador de otros enfoques. En todos los casos la fórmula para estimador MCO sigue siendo el mismo: ^ β = (X'X) 1 X'y, la única diferencia está en cómo interpretamos este resultado.

    Referencias

    •   Datos: Q2912993

mínimos, cuadrados, ordinarios, texto, sigue, traducción, defectuosa, quieres, colaborar, wikipedia, busca, artículo, original, mejora, esta, traducción, copia, pega, siguiente, código, página, discusión, autor, este, artículo, subst, aviso, traducido, estadís. El texto que sigue es una traduccion defectuosa Si quieres colaborar con Wikipedia busca el articulo original y mejora esta traduccion Copia y pega el siguiente codigo en la pagina de discusion del autor de este articulo subst Aviso mal traducido Minimos cuadrados ordinarios En estadistica los minimos cuadrados ordinarios MCO o minimos cuadrados lineales es el nombre de un metodo para encontrar los parametros poblacionales en un modelo de regresion lineal Este metodo minimiza la suma las distancias verticales entre las respuestas observadas en la muestra y las respuestas del modelo El parametro resultante puede expresarse a traves de una formula sencilla especialmente en el caso de un unico regresor El metodo MCO siempre y cuando se cumplan los supuestos clave sera consistente cuando los regresores sean exogenos y no haya perfecta multicolinealidad este sera optimo en la clase de parametros lineales cuando los errores sean homocedasticos y ademas no haya autocorrelacion En estas condiciones el metodo de MCO proporciona un estimador insesgado de varianza minima siempre que los errores tengan varianzas finitas Bajo la suposicion adicional de que los errores se distribuyen normalmente el estimador MCO es el de maxima verosimilitud Los MCO se utilizan en economia econometria y en la ingenieria electrica teoria de control y procesamiento de senales entre muchas areas de aplicacion Indice 1 Modelo lineal 1 1 Supuestos clave 1 1 1 Modelo clasico de regresion lineal 1 1 2 Independiente e identicamente distribuido 1 2 Modelo de series de tiempo 2 Estimacion 2 1 Modelo de regresion simple 3 Derivaciones alternativas 4 ReferenciasModelo lineal EditarVease tambien Regresion lineal Supongamos que los datos se componen de n observaciones yi xi ni 1 Cada observacion incluye una respuesta yi escalar y un vector de regresores o predictores xi En un modelo de regresion lineal la variable de respuesta es una funcion lineal de p variables explicativas y i x i b e i displaystyle y i x i beta varepsilon i donde b es un vector de parametros desconocidos p 1 ei es un escalar de variables no observadas aleatorias errores que dan cuenta de la discrepancia entre la realidad observada yi y los resultados previstos x ib y denota la matriz traspuesta de modo que x b es el producto escalar entre los vectores x y el b Este modelo tambien se puede escribir en notacion matricial como y X b e displaystyle y X beta varepsilon en donde y y e son vectores n y X es una matriz de regresores n p a lo que tambien se le llama la matriz de diseno Como regla general el termino constante se incluye siempre en el conjunto de regresores X por ejemplo mediante la adopcion dexi1 1 para todo i 1 n El coeficiente b1 correspondiente a este regresor se le llama el intercepto Puede haber alguna relacion entre los regresores Por ejemplo el regresor tercero puede ser el cuadrado del segundo regresor En este caso suponiendo que el primer regresor es constante tenemos un modelo de segundo grado en el regresor segundo Pero esto todavia se considera un modelo lineal ya que es lineal en las bs Supuestos clave Editar Existen tres supuestos que deben cumplirse para llevar a cabo una regresion lineal estos son La varianza de los errores debe ser homocedastica Las variables explicativas deben ser ortogonales a los residuos es decir no comparten informacion Los errores no deben estar correlacionados entre si Hay varios diferentes marcos en los que el modelo de regresion lineal pueden ser tratado con el fin de hacer que la tecnica de MCO sea aplicable Cada una de estas configuraciones produce las mismas formulas y los mismos resultados la unica diferencia es la interpretacion y los supuestos que han de imponerse a fin de que el metodo pueda dar resultados significativos La eleccion de la estructura aplicable depende principalmente de la naturaleza de los datos a la mano y en la tarea de inferencia que se tiene que realizar Una de las lineas de diferencia en la interpretacion es si tratar los regresores como variables aleatorias o como constantes predefinidas En el primer caso diseno aleatorio los regresores de xi son aleatorios y se toman muestras del conjunto con los yi de alguna poblacion como en un estudio observacional Este enfoque permite un estudio mas natural de las propiedades asintoticas de los estimadores En la otra interpretacion diseno fijo los regresores de X se tratan como constantes conocidas establecidas por un diseno e y se muestrea condicionalmente en los valores de X como en un experimento A efectos practicos esta distincion a menudo carece de importancia ya que la estimacion y la inferencia se lleva a cabo mientras se condiciona en X Todos los resultados consignados en este articulo se encuentran dentro del marco de diseno aleatorio Modelo clasico de regresion lineal Editar El modelo clasico se centra en las muestras finitas estimacion y la inferencia lo que significa que el numero de observaciones n es fijo Esto contrasta con otros enfoques que estudian el comportamiento asintotico de MCO y en el que el numero de observaciones se hace tender hasta el infinito Especificacion Correcta La forma funcional lineal se ha especificado correctamente Exogeneidad estricta Los errores en la regresion deben tener media condicionada cero 1 E e X 0 displaystyle operatorname E varepsilon X 0 La consecuencia inmediata de la hipotesis de exogeneidad es que los errores han significar cero E e 0 y que los regresores no estan correlacionadas con los errores E X e 0 El supuesto de exogeneidad es fundamental para la teoria de MCO Si se mantiene entonces las variables regresoras se llaman exogeno Si no es asi entonces los regresores que estan correlacionadas con el termino de error se llaman endogenas 2 y luego las estimaciones MCO dejan de ser validas En tal caso el metodo de variables instrumentales se pueden utilizar para llevar a cabo la inferencia No hay dependencia lineal Los regresores en X todos deben ser linealmente independientes Matematicamente esto significa que la matriz X debera tener rango de columna completa practicamente segura Pr rank X p 1 displaystyle Pr big operatorname rank X p big 1 Por lo general se supone tambien que los regresores tienen momentos finitos de hasta al menos segundo En tal caso la matriz Qxx E X X n sera finita y positiva semi definido Cuando esta suposicion se viola los regresores se llama linealmente dependiente o multicollinear perfectamente En tal caso el valor de la b coeficiente de regresion no puede aprenderse aunque prediccion de los valores de y es posible que los nuevos valores de las variables independientes que se encuentran en el mismo subespacio linealmente dependientes Errores esfericos 2 Var e X s 2 I n displaystyle operatorname Var varepsilon X sigma 2 I n donde A es un n n matriz de identidad y s2 es un parametro que determina la varianza de cada observacion Esta s2 se considera un parametro molestia en el modelo aunque por lo general se estima Si esta suposicion se viola entonces los estimadores MCO siguen siendo validos pero ya no es eficaz Es costumbre de dividir esta suposicion en dos partes Homocedasticidad E ei2 X s2 lo que significa que el termino de error tiene la misma varianza s2 en cada observacion Cuando este requisito se viola esto se llama heterocedasticidad en tal caso un estimador mas eficiente seria minimos cuadrados ponderados Si los errores tienen varianza infinita entonces las estimaciones MCO tambien tendra varianza infinita aunque por la ley de los grandes numeros que no obstante se tienden hacia los valores verdaderos siempre que los errores tienen media cero En este caso tecnicas robustas de estimacion se recomiendan Autocorrelacion no los errores no estan correlacionados entre observaciones E eiej X 0 para i j Este supuesto puede ser violado en el contexto de los datos de series de tiempo datos de panel muestras de racimo datos jerarquicos datos de medidas repetidas datos longitudinales y otros datos con dependencias En tales casos minimos cuadrados generalizados ofrece una mejor alternativa que el MCO Normality A veces se supone ademas que los errores tienen distribucion normal multivariante distribucion normal condicional en los regresores e X N 0 s 2 I n displaystyle varepsilon X sim mathcal N 0 sigma 2 I n Este supuesto no es necesario para la validez del metodo MCO aunque ciertos muestra adicionales finita propiedades se pueden establecer en el caso cuando lo hace especialmente en el area de las pruebas de hipotesis Tambien cuando los errores son normales el estimador MCO es equivalente a MLE de maxima probabilidad y por lo tanto es asintoticamente eficiente en la clase de todos los estimadores regulares Independiente e identicamente distribuido Editar En algunas aplicaciones especialmente con datos de corte transversal un supuesto adicional es impuesto que todas las observaciones son independientes e identicamente distribuidas iid Esto significa que todas las observaciones se toman de una muestra aleatoria que hace que todos los supuestos mencionados anteriormente sean mas simples y mas faciles de interpretar Ademas este marco permite establecer resultados asintoticos como el tamano de la muestra n que se entiende como una posibilidad teorica de ir a tener nuevas observaciones independientes de los datos en un proceso de generacion de datos La lista de las hipotesis en este caso es Observaciones iid xi yi son independientes entre si y tiene la misma distribucion xj yj para todo i j No hay multicolinealidad perfecta Qxx E xix i es una matriz definida positiva Exogeneidad E ei xi 0 Homocedasticidad Var ei xi s2 Modelo de series de tiempo Editar El proceso estocastico xi yi es estacionario y ergodica Los regresores estan predeterminados E xiei 0 for all i 1 n La p p matriz Qxx es de rango completo y por lo tanto definida positiva xiei es una secuencia de diferencia martingala con una matriz finita de segundos momentos Qxxe E ei2xix i Estimacion Editar Supongamos que b es un valor de candidato para el parametro b La cantidad yi xi b se denomina residual para la i esima observacion mide la distancia vertical entre el punto de datos xi yi y el hiperplano y x b y por lo tanto se determina el grado de ajuste entre los datos reales y el modelo La suma de cuadrados de los residuos SSR tambien llamada la suma de cuadrados del error ESS o suma residual de cuadrados RSS 3 es una medida del ajuste del modelo general S b i 1 n y i x i b 2 y X b T y X b displaystyle S b sum i 1 n y i x i b 2 y Xb T y Xb donde T denota la matriz de transposicion El valor de b que minimiza esta suma se llama el estimador MCO de b La funcion S b es cuadratica en b con definida positiva de Hesse y por lo tanto esta funcion posee un minimo global unico en b b displaystyle b hat beta Que puede ser dada por la formula explicita 4 b a r g min b R p S b 1 n i 1 n x i x i 1 1 n i 1 n x i y i displaystyle hat beta rm arg min b in mathbb R p S b bigg frac 1 n sum i 1 n x i x i bigg 1 cdot frac 1 n sum i 1 n x i y i o de manera equivalente en forma de matriz b X T X 1 X T y displaystyle hat beta X T X 1 X T y Despues hemos estimado b los valores ajustados o valores previstos de la regresion se y X b P y displaystyle hat y X hat beta Py donde P X T X 1 X T Y displaystyle X T X 1 X T Y es la matriz de proyeccion en el espacio generado por las columnas de X Esta matriz P tambien a veces se llama la matriz sombrero porque pone un sombrero a la variable y Otra matriz estrechamente relacionado con P es el aniquilador matriz M I n P se trata de una matriz de proyeccion sobre el espacio ortogonal a X Tanto las matrices P y M son simetricas e idempotente lo que significa que P 2 P y se refieren a la matriz de datos X a traves de identidades PX y MX X 0 7 Matriz M crea los residuos de la regresion e y X b M y M e displaystyle hat varepsilon y X hat beta My M varepsilon El uso de estos residuos se puede estimar el valor de s2 s 2 e e n p y M y n p S b n p s 2 n p n s 2 displaystyle s 2 frac hat varepsilon hat varepsilon n p frac y My n p frac S hat beta n p qquad hat sigma 2 frac n p n s 2 El numerador np son los grados de libertad estadisticos La primera cantidad s 2 es la estimacion OLS para s 2 mientras que el segundo Scriptstyle hat sigma 2 Es la estimacion MLE para s 2 Los dos estimadores son bastante similares en muestras grandes el primero es siempre imparcial mientras que el segundo esta sesgado pero reduce al minimo el error cuadratico medio del estimador En la practica s 2 se utiliza con mas frecuencia ya que es mas conveniente para la prueba de hipotesis La raiz cuadrada de 2 s se denomina el error estandar de la regresion SER o el error estandar de la ecuacion VER 5 Es comun para evaluar la bondad del ajuste de la regresion por minimos cuadrados mediante la comparacion de la cantidad de la variacion inicial en la muestra se puede reducir mediante la regresion en X El coeficiente de determinacion R 2 se define como una proporcion de explicado varianza de la varianza total de la variable dependiente y 8 R 2 y i y 2 y i y 2 y P L P y y L y 1 y M y y L y 1 S S R T S S displaystyle R 2 frac sum hat y i overline y 2 sum y i overline y 2 frac y P LPy y Ly 1 frac y My y Ly 1 frac rm SSR rm TSS donde TSS es la suma total de los cuadrados de la variable dependiente L I n 11 n y 1 es una n 1 vector de unos L es un matriz de centrado que es equivalente a la regresion en una constante Simplemente resta la media de una variable A fin de que R2 sea significativo la matriz X de datos sobre regresores debe contener un vector columna de unos para representar la constante cuyo coeficiente es el intercepto de regresion En ese caso R2 siempre sera un numero entre 0 y 1 con valores cercanos a 1 que indica un buen grado de ajuste Modelo de regresion simple Editar Si la matriz de datos X contiene solo dos variables una constante y un regresor escalar x i entonces esto se llama el modelo de regresion simple 9 Este caso se considera a menudo en las clases de estadisticas para principiantes ya que ofrece mucho mas simple formulas incluso adecuados para el calculo manual Los vectores de parametros de tal modelo es de 2 dimensiones y se denota comunmente como a b y i a b x i e i displaystyle y i alpha beta x i varepsilon i Las estimaciones de minimos cuadrados en este caso vienen dadas por formulas simples b x i y i 1 n x i y i x i 2 1 n x i 2 C o v x y V a r x a y b x displaystyle hat beta frac sum x i y i frac 1 n sum x i sum y i sum x i 2 frac 1 n sum x i 2 frac mathrm Cov x y mathrm Var x quad hat alpha overline y hat beta overline x Derivaciones alternativas Editar En el apartado anterior los minimos cuadrados estimador Scriptstyle hat beta se obtuvo como un valor que minimiza la suma de los residuos al cuadrado del modelo Sin embargo tambien es posible obtener el mismo estimador de otros enfoques En todos los casos la formula para estimador MCO sigue siendo el mismo b X X 1 X y la unica diferencia esta en como interpretamos este resultado Referencias Editar Hayashi 2000 page 7 a b Hayashi 2000 page 10 Hayashi 2000 page 15 Hayashi 2000 page 18 Hayashi 2000 page 19 Datos Q2912993 Obtenido de https es wikipedia org w index php title Minimos cuadrados ordinarios amp oldid 140219025, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos