fbpx
Wikipedia

Mínimas desviaciones absolutas

Las Mínimas desviaciones absolutas (LAD, por sus siglas en inglés), también conocidas como Mínimos Errores Absolutos (LAE), es una técnica de optimización técnica similar a los de mínimos cuadrados ordinarios que intenta encontrar una función que se aproxima mucho a un conjunto de datos. En el caso simple de un conjunto de datos (x, y) , la función de aproximación es una simple "línea de tendencia" en dos dimensiones de coordenadas cartesianas. El método minimiza la suma de errores absolutos (SAE) (la suma de los valores absolutos de los "residuos" verticales entre puntos generados por la función y los puntos correspondientes en los datos). La estimación de desviaciones mínimas absolutas también surge como la estimación de máxima verosimilitud si los errores tienen una distribución de Laplace.

Formulación del problema

Supongamos que el conjunto de datos consta de los puntos (xi, yi) con i = 1, 2, ..., n. Queremos encontrar una función f tal que  

Para alcanzar este objetivo, se supone que la función f es de una forma particular que contiene algunos parámetros que deben determinarse. Por ejemplo, la forma más simple sería lineal: f(x) = bx + c, donde b y c son parámetros cuyos valores no se conocen, pero que nos gustaría estimar.

Supongamos que f (x) es una función cuadrática, lo que significa que f(x) = ax2 + bx + c, donde a, b y c no se conocen aún. (En general, podría ser no sólo una variable explicativa x, sino una pluralidad de variables, todos los que aparecen como argumentos de la función f.)

Ahora buscamos valores estimados de los parámetros desconocidos que minimizan la suma de los valores absolutos de los residuos:

 

Contrastando Mínimos Cuadrados con menos desviaciones absolutas

La siguiente es una tabla de contraste algunas propiedades del método de mínimas desviaciones absolutas con los del método de los mínimos cuadrados (para problemas no singulares).[1][2]

Regresión de mínimos cuadrados Regresión de mínimas desviaciones absolutas
No muy robusta Robusta
Solución estable Solución inestable
Una solución Múltiples soluciones posibles

El método de los desvíos menos absolutos encuentra aplicaciones en muchas áreas, debido a su solidez en comparación con el método de mínimos cuadrados. Por lo menos desviaciones absolutas es robusto en los que es resistente a los valores atípicos en los datos. Esto puede ser útil en los estudios donde los valores extremos pueden ser ignoradas de manera segura y efectiva. Si es importante prestar atención a todas y todos los valores atípicos, el método de los mínimos cuadrados es una mejor opción.

La propiedad inestabilidad del método de los desvíos menos absolutos significa que, por un pequeño ajuste horizontal de un dato , la línea de regresión puede saltar una gran cantidad. El método tiene soluciones continuas para algunas configuraciones de datos; Sin embargo, moviendo un punto de referencia una pequeña cantidad, se podría "saltar pasado" una configuración que tiene múltiples soluciones que abarcan una región. Después de pasar por esta región de soluciones, la línea de desviaciones menos absoluta tiene una pendiente que puede diferir mucho de la de la línea anterior. En contraste, las soluciones de mínimos cuadrados es estable en que, para cualquier pequeño ajuste de un punto de datos, la línea de regresión siempre se moverá sólo ligeramente; es decir, los parámetros de regresión son funciones continuas de los datos.

Por último, para un determinado conjunto de datos, el método de las desviaciones absolutas menos puede producir múltiples soluciones, mientras que el método de los mínimos cuadrados siempre produce sólo una solución (la línea de regresión es único).

Otras propiedades

Existen otras propiedades únicas de la línea de desviaciones menos absoluta. En el caso de un conjunto de (x, y) de datos, la línea de desviaciones menos absoluta siempre pasará a través de al menos dos de los puntos de datos, a menos que existan múltiples soluciones. Si existen varias soluciones, entonces la región de soluciones válidas desviaciones menos absolutos será delimitado por al menos dos líneas, cada una de las cuales pasa a través de al menos dos puntos de datos. Más en general, si hay k regresores (incluyendo la constante), a continuación, al menos una superficie de regresión óptimo se pasan a través de K de los puntos de datos.[3]:p.936

Este "bloqueo" de la línea a los puntos de datos puede ayudar a entender la propiedad "inestabilidad": si la línea siempre se engancha a por lo menos dos puntos, la línea va a saltar entre los diferentes conjuntos de puntos como se alteran los puntos de datos. El "enganche" también ayuda a entender la propiedad "robustez": si existe un valor atípico y un mínimo absoluto línea desviaciones deben aferrarse a dos puntos de datos, el valor atípico muy probablemente no será uno de esos dos puntos, porque eso no va a minimizar la suma de las desviaciones absolutas en la mayoría de los casos.

Un caso conocido en el que existen múltiples soluciones es un conjunto de puntos simétrica respecto a una línea horizontal, como se muestra en la Figura A a continuación.

Para entender por qué hay varias soluciones en el caso que se muestra en la Figura A, considere la línea rosa en la región verde. Su suma de errores absolutos es algún valor S. Si uno fuera a inclinar la línea ligeramente hacia arriba, mientras se mantiene dentro de la región verde, la suma de errores seguiría siendo S. No cambiaría porque la distancia de cada punto a la línea crece en un lado de la línea, mientras que la distancia de cada punto en el lado opuesto de la línea disminuye por exactamente la misma cantidad. Así, la suma de errores absolutos sigue siendo el mismo. Además, dado que se puede inclinar la línea en incrementos infinitamente pequeños, esto también muestra que si hay más de una solución, hay un número infinito de soluciones.

Las variaciones, extensiones, especializaciones

El problema menor desviación absoluta puede ser extendido para incluir múltiples explanators, limitaciones y regularización , por ejemplo, un modelo lineal con restricciones lineales:[4]

minimizar  
sujeto a, e.g.,  

donde   es un vector columna de coeficientes a ser estimados, b es un intercepto a ser estimado, xi es un vector columna de la i-ésima observaciones sobre los diversos explanators, y i es la i-ésima observación en la variable dependiente, y k es una constante conocida.

Regularización con LASSO también se puede combinar con LAD.[5]

Métodos de resolución

Aunque la idea de una regresión de mínimos desviaciones absoluta es tan sencillo como el de regresión de mínimos cuadrados, la línea de desviaciones menos absoluta no es tan fácil de calcular de manera eficiente. A diferencia de regresión de mínimos cuadrados, regresión desviaciones menos absoluta no tiene un método de solución analítica. Por lo tanto, se requiere un enfoque iterativo. La siguiente es una enumeración de algunas desviaciones menos absolutos métodos de solución.

Métodos basados en Simplex (tales como el algoritmo de Barrodale-Roberts[6]​) Debido a que el problema es un programa lineal, cualquiera de las muchas técnicas de programación lineal (incluyendo el método simplex, así como otros) se pueden aplicar. Mínimos cuadrados iterativamente re-ponderada[7]​ Método de descenso directo de Wesolowsky[8]​ Enfoque de máxima verosimilitud de Li-Arce[9]​ Revise todas las combinaciones de líneas de punto a punto para la suma mínima de errores

Métodos basados en Simplex son la forma "preferido" para resolver el problema de desviaciones menos absoluta. [8] Un método simplex es un método para resolver un problema de programación lineal. El algoritmo más popular es el Barrodale-Roberts modificado Simplex algoritmo. Los algoritmos para IRLS, Método de Wesolowsky, y método de Li se pueden encontrar en el Apéndice A de,,[10]​ entre otros métodos. Comprobación de todas las combinaciones de líneas que atraviesan cualquiera de los dos (x, y) puntos de datos es otro método para encontrar la línea de desviaciones menos absoluta. Puesto que se sabe que al menos una línea desviaciones menos absoluta atraviesa al menos dos puntos de datos, este método encontrará una línea mediante la comparación de la SAE de cada línea, y la elección de la línea con el más pequeño SAE. Además, si múltiples líneas tienen la misma, más pequeño SAE, a continuación, las líneas de delinear la región de múltiples soluciones. Aunque simple, este último método es ineficiente para grandes conjuntos de datos.

Referencias

  1. For a set of applets that demonstrate these differences, see the following site: http://www.math.wpi.edu/Course_Materials/SAS/lablets/7.3/73_choices.html
  2. For a discussion of LAD versus OLS, see these academic papers and reports: http://www.econ.uiuc.edu/~roger/research/rq/QRJEP.pdf and https://www.leeds.ac.uk/educol/documents/00003759.htm
  3. Branham, R. L., Jr., "Alternatives to least squares", Astronomical Journal 87, June 1982, 928–937. [1] at SAO/NASA Astrophysics Data System (ADS)
  4. Mingren Shi & Mark A. Lukas (marzo de 2002). «An L1 estimation algorithm with degeneracy and linear constraints». Computational Statistics & Data Analysis 39 (1): 35-55. doi:10.1016/S0167-9473(01)00049-4. 
  5. Li Wang, Michael D. Gordon & Ji Zhu (December 2006). «Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning». Proceedings of the Sixth International Conference on Data Mining. pp. 690-700. doi:10.1109/ICDM.2006.134. 
  6. I. Barrodale & F. D. K. Roberts (1973). «An improved algorithm for discrete L1 linear approximation». SIAM Journal on Numerical Analysis 10 (5): 839-848. Bibcode:1973SJNA...10..839B. JSTOR 2156318. doi:10.1137/0710069. 
  7. E. J. Schlossmacher (diciembre de 1973). «An Iterative Technique for Absolute Deviations Curve Fitting». Journal of the American Statistical Association (Journal of the American Statistical Association, Vol. 68, No. 344) 68 (344): 857-859. JSTOR 2284512. doi:10.2307/2284512. 
  8. G. O. Wesolowsky (1981). «A new descent algorithm for the least absolute value regression problem». Communications in Statistics – Simulation and Computation. B10 (5): 479-491. doi:10.1080/03610918108812224. 
  9. Yinbo Li and Gonzalo R. Arce (2004). «A Maximum Likelihood Approach to Least Absolute Deviation Regression». EURASIP Journal on Applied Signal Processing 2004 (12): 1762-1769. doi:10.1155/S1110865704401139.  (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
  10. William A. Pfeil, Statistical Teaching Aids, Bachelor of Science thesis, Worcester Polytechnic Institute, 2006
  •   Datos: Q4291882

mínimas, desviaciones, absolutas, texto, sigue, traducción, defectuosa, quieres, colaborar, wikipedia, busca, artículo, original, mejora, esta, traducción, copia, pega, siguiente, código, página, discusión, autor, este, artículo, subst, aviso, traducido, sigla. El texto que sigue es una traduccion defectuosa Si quieres colaborar con Wikipedia busca el articulo original y mejora esta traduccion Copia y pega el siguiente codigo en la pagina de discusion del autor de este articulo subst Aviso mal traducido Minimas desviaciones absolutas Las Minimas desviaciones absolutas LAD por sus siglas en ingles tambien conocidas como Minimos Errores Absolutos LAE es una tecnica de optimizacion tecnica similar a los de minimos cuadrados ordinarios que intenta encontrar una funcion que se aproxima mucho a un conjunto de datos En el caso simple de un conjunto de datos x y la funcion de aproximacion es una simple linea de tendencia en dos dimensiones de coordenadas cartesianas El metodo minimiza la suma de errores absolutos SAE la suma de los valores absolutos de los residuos verticales entre puntos generados por la funcion y los puntos correspondientes en los datos La estimacion de desviaciones minimas absolutas tambien surge como la estimacion de maxima verosimilitud si los errores tienen una distribucion de Laplace Indice 1 Formulacion del problema 2 Contrastando Minimos Cuadrados con menos desviaciones absolutas 3 Otras propiedades 4 Las variaciones extensiones especializaciones 5 Metodos de resolucion 6 ReferenciasFormulacion del problema EditarSupongamos que el conjunto de datos consta de los puntos xi yi con i 1 2 n Queremos encontrar una funcion f tal que f x i y i displaystyle f x i approx y i Para alcanzar este objetivo se supone que la funcion f es de una forma particular que contiene algunos parametros que deben determinarse Por ejemplo la forma mas simple seria lineal f x bx c donde b y c son parametros cuyos valores no se conocen pero que nos gustaria estimar Supongamos que f x es una funcion cuadratica lo que significa que f x ax2 bx c donde a b y c no se conocen aun En general podria ser no solo una variable explicativa x sino una pluralidad de variables todos los que aparecen como argumentos de la funcion f Ahora buscamos valores estimados de los parametros desconocidos que minimizan la suma de los valores absolutos de los residuos S i 1 n y i f x i displaystyle S sum i 1 n y i f x i Contrastando Minimos Cuadrados con menos desviaciones absolutas EditarLa siguiente es una tabla de contraste algunas propiedades del metodo de minimas desviaciones absolutas con los del metodo de los minimos cuadrados para problemas no singulares 1 2 Regresion de minimos cuadrados Regresion de minimas desviaciones absolutasNo muy robusta RobustaSolucion estable Solucion inestableUna solucion Multiples soluciones posiblesEl metodo de los desvios menos absolutos encuentra aplicaciones en muchas areas debido a su solidez en comparacion con el metodo de minimos cuadrados Por lo menos desviaciones absolutas es robusto en los que es resistente a los valores atipicos en los datos Esto puede ser util en los estudios donde los valores extremos pueden ser ignoradas de manera segura y efectiva Si es importante prestar atencion a todas y todos los valores atipicos el metodo de los minimos cuadrados es una mejor opcion La propiedad inestabilidad del metodo de los desvios menos absolutos significa que por un pequeno ajuste horizontal de un dato la linea de regresion puede saltar una gran cantidad El metodo tiene soluciones continuas para algunas configuraciones de datos Sin embargo moviendo un punto de referencia una pequena cantidad se podria saltar pasado una configuracion que tiene multiples soluciones que abarcan una region Despues de pasar por esta region de soluciones la linea de desviaciones menos absoluta tiene una pendiente que puede diferir mucho de la de la linea anterior En contraste las soluciones de minimos cuadrados es estable en que para cualquier pequeno ajuste de un punto de datos la linea de regresion siempre se movera solo ligeramente es decir los parametros de regresion son funciones continuas de los datos Por ultimo para un determinado conjunto de datos el metodo de las desviaciones absolutas menos puede producir multiples soluciones mientras que el metodo de los minimos cuadrados siempre produce solo una solucion la linea de regresion es unico Otras propiedades EditarExisten otras propiedades unicas de la linea de desviaciones menos absoluta En el caso de un conjunto de x y de datos la linea de desviaciones menos absoluta siempre pasara a traves de al menos dos de los puntos de datos a menos que existan multiples soluciones Si existen varias soluciones entonces la region de soluciones validas desviaciones menos absolutos sera delimitado por al menos dos lineas cada una de las cuales pasa a traves de al menos dos puntos de datos Mas en general si hay k regresores incluyendo la constante a continuacion al menos una superficie de regresion optimo se pasan a traves de K de los puntos de datos 3 p 936Este bloqueo de la linea a los puntos de datos puede ayudar a entender la propiedad inestabilidad si la linea siempre se engancha a por lo menos dos puntos la linea va a saltar entre los diferentes conjuntos de puntos como se alteran los puntos de datos El enganche tambien ayuda a entender la propiedad robustez si existe un valor atipico y un minimo absoluto linea desviaciones deben aferrarse a dos puntos de datos el valor atipico muy probablemente no sera uno de esos dos puntos porque eso no va a minimizar la suma de las desviaciones absolutas en la mayoria de los casos Un caso conocido en el que existen multiples soluciones es un conjunto de puntos simetrica respecto a una linea horizontal como se muestra en la Figura A a continuacion Para entender por que hay varias soluciones en el caso que se muestra en la Figura A considere la linea rosa en la region verde Su suma de errores absolutos es algun valor S Si uno fuera a inclinar la linea ligeramente hacia arriba mientras se mantiene dentro de la region verde la suma de errores seguiria siendo S No cambiaria porque la distancia de cada punto a la linea crece en un lado de la linea mientras que la distancia de cada punto en el lado opuesto de la linea disminuye por exactamente la misma cantidad Asi la suma de errores absolutos sigue siendo el mismo Ademas dado que se puede inclinar la linea en incrementos infinitamente pequenos esto tambien muestra que si hay mas de una solucion hay un numero infinito de soluciones Las variaciones extensiones especializaciones EditarEl problema menor desviacion absoluta puede ser extendido para incluir multiples explanators limitaciones y regularizacion por ejemplo un modelo lineal con restricciones lineales 4 minimizar S b b i x i b b y i displaystyle S mathbf beta b sum i mathbf x i mathbf beta b y i sujeto a e g x 1 b b y 1 k displaystyle mathbf x 1 mathbf beta b y 1 leq k donde b displaystyle mathbf beta es un vector columna de coeficientes a ser estimados b es un intercepto a ser estimado xi es un vector columna de la i esima observaciones sobre los diversos explanators y i es la i esima observacion en la variable dependiente y k es una constante conocida Regularizacion con LASSO tambien se puede combinar con LAD 5 Metodos de resolucion EditarAunque la idea de una regresion de minimos desviaciones absoluta es tan sencillo como el de regresion de minimos cuadrados la linea de desviaciones menos absoluta no es tan facil de calcular de manera eficiente A diferencia de regresion de minimos cuadrados regresion desviaciones menos absoluta no tiene un metodo de solucion analitica Por lo tanto se requiere un enfoque iterativo La siguiente es una enumeracion de algunas desviaciones menos absolutos metodos de solucion Metodos basados en Simplex tales como el algoritmo de Barrodale Roberts 6 Debido a que el problema es un programa lineal cualquiera de las muchas tecnicas de programacion lineal incluyendo el metodo simplex asi como otros se pueden aplicar Minimos cuadrados iterativamente re ponderada 7 Metodo de descenso directo de Wesolowsky 8 Enfoque de maxima verosimilitud de Li Arce 9 Revise todas las combinaciones de lineas de punto a punto para la suma minima de erroresMetodos basados en Simplex son la forma preferido para resolver el problema de desviaciones menos absoluta 8 Un metodo simplex es un metodo para resolver un problema de programacion lineal El algoritmo mas popular es el Barrodale Roberts modificado Simplex algoritmo Los algoritmos para IRLS Metodo de Wesolowsky y metodo de Li se pueden encontrar en el Apendice A de 10 entre otros metodos Comprobacion de todas las combinaciones de lineas que atraviesan cualquiera de los dos x y puntos de datos es otro metodo para encontrar la linea de desviaciones menos absoluta Puesto que se sabe que al menos una linea desviaciones menos absoluta atraviesa al menos dos puntos de datos este metodo encontrara una linea mediante la comparacion de la SAE de cada linea y la eleccion de la linea con el mas pequeno SAE Ademas si multiples lineas tienen la misma mas pequeno SAE a continuacion las lineas de delinear la region de multiples soluciones Aunque simple este ultimo metodo es ineficiente para grandes conjuntos de datos Referencias Editar For a set of applets that demonstrate these differences see the following site http www math wpi edu Course Materials SAS lablets 7 3 73 choices html For a discussion of LAD versus OLS see these academic papers and reports http www econ uiuc edu roger research rq QRJEP pdf and https www leeds ac uk educol documents 00003759 htm Branham R L Jr Alternatives to least squares Astronomical Journal 87 June 1982 928 937 1 at SAO NASA Astrophysics Data System ADS Mingren Shi amp Mark A Lukas marzo de 2002 An L1 estimation algorithm with degeneracy and linear constraints Computational Statistics amp Data Analysis 39 1 35 55 doi 10 1016 S0167 9473 01 00049 4 Li Wang Michael D Gordon amp Ji Zhu December 2006 Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning Proceedings of the Sixth International Conference on Data Mining pp 690 700 doi 10 1109 ICDM 2006 134 I Barrodale amp F D K Roberts 1973 An improved algorithm for discrete L1 linear approximation SIAM Journal on Numerical Analysis 10 5 839 848 Bibcode 1973SJNA 10 839B JSTOR 2156318 doi 10 1137 0710069 E J Schlossmacher diciembre de 1973 An Iterative Technique for Absolute Deviations Curve Fitting Journal of the American Statistical Association Journal of the American Statistical Association Vol 68 No 344 68 344 857 859 JSTOR 2284512 doi 10 2307 2284512 G O Wesolowsky 1981 A new descent algorithm for the least absolute value regression problem Communications in Statistics Simulation and Computation B10 5 479 491 doi 10 1080 03610918108812224 Yinbo Li and Gonzalo R Arce 2004 A Maximum Likelihood Approach to Least Absolute Deviation Regression EURASIP Journal on Applied Signal Processing 2004 12 1762 1769 doi 10 1155 S1110865704401139 enlace roto disponible en Internet Archive vease el historial la primera version y la ultima William A Pfeil Statistical Teaching Aids Bachelor of Science thesis Worcester Polytechnic Institute 2006 Datos Q4291882Obtenido de https es wikipedia org w index php title Minimas desviaciones absolutas amp oldid 119079737, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos