fbpx
Wikipedia

Regresión de mínimos cuadrados parciales

La regresión de mínimos cuadrados parciales o Partial least squares regression (PLS regression) es un método estadístico que tiene relación con la regresión de componentes principales, en lugar de encontrar hiperplanos de máxima varianza entre la variable de respuesta y las variables independientes, se encuentra una regresión lineal mediante la proyección de las variables de predicción y las variables observables a un nuevo espacio. Debido a que tanto los datos de X e Y se proyectan a nuevos espacios, la familia de los modelos PLS se conoce como factor de modelos bilineales. Los cuadrados mínimos parciales Análisis discriminante (PLS-DA) es una variante que se utiliza cuando la Y es binaria.

La regresión de mínimos cuadrados parciales se utiliza para encontrar las relaciones fundamentales entre las dos matrices (X e Y), es decir, un enfoque de variable latente para modelar la estructura de covarianza en estos dos espacios. Un modelo de PLS trata de encontrar el sentido multidimensional en el espacio de X que explica la dirección de la máxima varianza multidimensional en el espacio Y. regresión de mínimos cuadrados parciales es especialmente adecuada cuando la matriz de predictores tiene más variables que observaciones, y cuando hay multicolinealidad entre los valores de X. Por el contrario, de no usarse este modelo se producirá un error estándar de la regresión en estos casos.

El algoritmo de la regresión PLS se emplea en el modelado de ruta PLS,[1][2]​ un método para modelar una red "causal" de variables latentes, la palabra 'causal' se pone entre comillas, porque las causas, obviamente, no se pueden determinar sin experimentos o cuasi -métodos experimentales. Esta técnica es una forma de modelos de ecuaciones estructurales, que se distingue del método clásico por estar basadas en componentes en lugar de las covarianza.[3]

El método de mínimos cuadrados parciales se introdujo por el estadístico sueco Herman Wold, quien lo desarrolló con su hijo, Svante Wold. Un término alternativo para el PLS (y más correctamente según Svante Wold[4]​) es la proyección sobre estructuras latentes, pero la expresión de mínimos cuadrados parciales sigue siendo dominante en muchas áreas. Aunque las aplicaciones originales estaban en las ciencias sociales, la regresión PLS es hoy en día más utilizado en Quimiometría y áreas relacionadas. También se utiliza en la bioinformática, Sensometrics, la neurociencia y la antropología. Por el contrario, PLS ruta modelado es la más utilizada en las ciencias sociales, la econometría, la comercialización y la gestión estratégica.

Modelo subyacente editar

El modelo subyacente general de PLS multivariantes es:

 

donde   es una matriz   predictores,   es una matriz de   respuestas;   y   son matrices   que son, respectivamente, proyecciones de X (el X score, component o factor matrix) y proyecciones de Y (the Y scores);   y   son, respectivamente,   y   matrices de cargo ortogonales; y matrices   y   son los términos de error, supone que los independientes e idénticamente distribuidas las variables aleatorias normales. Las descomposiciones de X e Y se hacen con el fin de maximizar la covarianza de T y U.

Algoritmos editar

Un número de variantes de PLS existe para estimar el factor de carga y las matrices   y  . La mayoría de ellos constructo estimaciones de la regresión lineal entre   e   como  . Algunos algoritmos PLS sólo son apropiados para el caso en el que Y es un vector columna, mientras que otros tratan el caso general de una matriz  . Algoritmos también difieren en si se estima la matriz de factores   como una vista ortogonal, una matriz ortonormal o no.[5][6][7][8][9][10]​ La predicción final será el mismo para todas estas variedades de PLS, pero los componentes será diferente.

PLS1 editar

PLS1 es un algoritmo utilizado ampliamente apropiado para el vector   caso. Estima   como una matriz ortonormal. En pseudocode se expresa a continuación (las mayúsculas son matrices, las letras minúsculas son vectores si son superíndice y escalares si son subíndice):


 1 function PLS1( ) 2   3  , an initial estimate of  . 4   5 for   = 0 to   6   (note this is a scalar) 7   8   9   (note this is a scalar) 10 if   = 0 11  , break the for loop 12 if   13   14   15   16 end for 17 define   to be the matrix with columns  . Do the same to form the   matrix and   vector. 18   19   20 return   

Esta forma del algoritmo no requiere el centrado de la entrada X e Y , Ya que esto se realiza implícitamente por el algoritmo. Este algoritmo cuenta con "deflación" de la matriz X (Sustracción de The Kid t ^ {(k)} {p ^ {(k)}} ^ T ), Pero la deflación del vector y no se lleva a cabo, ya que no es necesario (se puede demostrar que desinflar y produce los mismos resultados que no se desinfla.). La variable proporcionada por el usuario l es el límite en el número de factores latentes en la regresión, y si es igual al rango de la matriz X , El algoritmo va a producir las estimaciones de regresión de mínimos cuadrados para los B y B_0

Extensiones editar

En 2002 se publicó un nuevo método llamado proyecciones ortogonales a las estructuras latentes (OPLS). En OPLS, datos variables continuas se separan en información predictiva y no correlacionadas. Esto conduce a la mejora de los diagnósticos, así como de visualización más fácil de interpretar. Sin embargo, estos cambios sólo mejoran la interpretabilidad, no la capacidad de predicción de los modelos PLS.[11]​ L-PLS regresión PLS se extiende a 3 bloques de datos conectados.[12]​ Del mismo modo, OPLS-DA (Análisis discriminante) se puede aplicar cuando se trabaja con variables discretas, como en la clasificación y los estudios de biomarcadores.

Referencias editar

  1. Tenenhaus, M.; Esposito Vinzi, V.; Chatelinc, Y-M.; Lauro, C. (enero de 2005). «PLS path modeling» (PDF). Computational Statistics & Data Analysis 48 (1): 159-205. doi:10.1016/j.csda.2004.03.005.  (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
  2. Vinzi, V.; Chin, W.W.; Henseler, J. et al., eds. (2010). Handbook of Partial Least Squares. ISBN 978-3-540-32825-4. 
  3. Tenenhaus, M. (2008). (PDF). Archivado desde el original el 3 de noviembre de 2013. Consultado el 1 de agosto de 2013. 
  4. Wold, S; Sjöström, M.; Eriksson, L. (2001). «PLS-regression: a basic tool of chemometrics». Chemometrics and Intelligent Laboratory Systems 58 (2): 109-130. doi:10.1016/S0169-7439(01)00155-1. 
  5. Lindgren, F; Geladi, P; Wold, S (1993). «The kernel algorithm for PLS». J. Chemometrics 7: 45-59. doi:10.1002/cem.1180070104. 
  6. de Jong, S.; ter Braak, C.J.F. (1994). «Comments on the PLS kernel algorithm». J. Chemometrics 8 (2): 169-174. doi:10.1002/cem.1180080208. 
  7. Dayal, B.S.; MacGregor, J.F. (1997). «Improved PLS algorithms». J. Chemometrics 11 (1): 73-85. doi:10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-#. 
  8. de Jong, S. (1993). «SIMPLS: an alternative approach to partial least squares regression». Chemometrics and Intelligent Laboratory Systems 18 (3): 251-263. doi:10.1016/0169-7439(93)85002-X. 
  9. Rannar, S.; Lindgren, F.; Geladi, P.; Wold, S. (1994). «A PLS Kernel Algorithm for Data Sets with Many Variables and Fewer Objects. Part 1: Theory and Algorithm». J. Chemometrics 8 (2): 111-125. doi:10.1002/cem.1180080204. 
  10. Abdi, H. (2010). «Partial least squares regression and projection on latent structure regression (PLS-Regression)». Wiley Interdisciplinary Reviews: Computational Statistics 2: 97-106. doi:10.1002/wics.51. 
  11. Trygg, J; Wold, S (2002). «Orthogonal Projections to Latent Structures». Journal of Chemometrics 16 (3): 119-128. doi:10.1002/cem.695. 
  12. Sæbøa, S.; Almøya, T.; Flatbergb, A.; Aastveita, A.H.; Martens, H. (2008). «LPLS-regression: a method for prediction and classification under the influence of background information on predictor variables». Chemometrics and Intelligent Laboratory Systems 91 (2): 121-132. doi:10.1016/j.chemolab.2007.10.006. 
  •   Datos: Q422009

regresión, mínimos, cuadrados, parciales, regresión, mínimos, cuadrados, parciales, partial, least, squares, regression, regression, método, estadístico, tiene, relación, regresión, componentes, principales, lugar, encontrar, hiperplanos, máxima, varianza, ent. La regresion de minimos cuadrados parciales o Partial least squares regression PLS regression es un metodo estadistico que tiene relacion con la regresion de componentes principales en lugar de encontrar hiperplanos de maxima varianza entre la variable de respuesta y las variables independientes se encuentra una regresion lineal mediante la proyeccion de las variables de prediccion y las variables observables a un nuevo espacio Debido a que tanto los datos de X e Y se proyectan a nuevos espacios la familia de los modelos PLS se conoce como factor de modelos bilineales Los cuadrados minimos parciales Analisis discriminante PLS DA es una variante que se utiliza cuando la Y es binaria La regresion de minimos cuadrados parciales se utiliza para encontrar las relaciones fundamentales entre las dos matrices X e Y es decir un enfoque de variable latente para modelar la estructura de covarianza en estos dos espacios Un modelo de PLS trata de encontrar el sentido multidimensional en el espacio de X que explica la direccion de la maxima varianza multidimensional en el espacio Y regresion de minimos cuadrados parciales es especialmente adecuada cuando la matriz de predictores tiene mas variables que observaciones y cuando hay multicolinealidad entre los valores de X Por el contrario de no usarse este modelo se producira un error estandar de la regresion en estos casos El algoritmo de la regresion PLS se emplea en el modelado de ruta PLS 1 2 un metodo para modelar una red causal de variables latentes la palabra causal se pone entre comillas porque las causas obviamente no se pueden determinar sin experimentos o cuasi metodos experimentales Esta tecnica es una forma de modelos de ecuaciones estructurales que se distingue del metodo clasico por estar basadas en componentes en lugar de las covarianza 3 El metodo de minimos cuadrados parciales se introdujo por el estadistico sueco Herman Wold quien lo desarrollo con su hijo Svante Wold Un termino alternativo para el PLS y mas correctamente segun Svante Wold 4 es la proyeccion sobre estructuras latentes pero la expresion de minimos cuadrados parciales sigue siendo dominante en muchas areas Aunque las aplicaciones originales estaban en las ciencias sociales la regresion PLS es hoy en dia mas utilizado en Quimiometria y areas relacionadas Tambien se utiliza en la bioinformatica Sensometrics la neurociencia y la antropologia Por el contrario PLS ruta modelado es la mas utilizada en las ciencias sociales la econometria la comercializacion y la gestion estrategica Indice 1 Modelo subyacente 2 Algoritmos 3 PLS1 4 Extensiones 5 ReferenciasModelo subyacente editarEl modelo subyacente general de PLS multivariantes es X TP EY UQ F displaystyle begin aligned X amp TP top E Y amp UQ top F end aligned nbsp donde X displaystyle X nbsp es una matriz n m displaystyle n times m nbsp predictores Y displaystyle Y nbsp es una matriz de n p displaystyle n times p nbsp respuestas T displaystyle T nbsp y U displaystyle U nbsp son matrices n l displaystyle n times l nbsp que son respectivamente proyecciones de X el X score component o factor matrix y proyecciones de Y the Y scores P displaystyle P nbsp y Q displaystyle Q nbsp son respectivamente m l displaystyle m times l nbsp y p l displaystyle p times l nbsp matrices de cargo ortogonales y matrices E displaystyle E nbsp y F displaystyle F nbsp son los terminos de error supone que los independientes e identicamente distribuidas las variables aleatorias normales Las descomposiciones de X e Y se hacen con el fin de maximizar la covarianza de T y U Algoritmos editarUn numero de variantes de PLS existe para estimar el factor de carga y las matrices T P displaystyle T P nbsp y Q displaystyle Q nbsp La mayoria de ellos constructo estimaciones de la regresion lineal entre X displaystyle X nbsp e Y displaystyle Y nbsp como Y XB B 0 displaystyle Y X tilde B tilde B 0 nbsp Algunos algoritmos PLS solo son apropiados para el caso en el que Y es un vector columna mientras que otros tratan el caso general de una matriz Y displaystyle Y nbsp Algoritmos tambien difieren en si se estima la matriz de factores T displaystyle T nbsp como una vista ortogonal una matriz ortonormal o no 5 6 7 8 9 10 La prediccion final sera el mismo para todas estas variedades de PLS pero los componentes sera diferente PLS1 editarPLS1 es un algoritmo utilizado ampliamente apropiado para el vector Y displaystyle Y nbsp caso Estima T displaystyle T nbsp como una matriz ortonormal En pseudocode se expresa a continuacion las mayusculas son matrices las letras minusculas son vectores si son superindice y escalares si son subindice 1 function PLS1 X y l displaystyle X y l nbsp 2 X 0 X displaystyle X 0 gets X nbsp 3 w 0 XTy XTy displaystyle w 0 gets X T y X T y nbsp an initial estimate of w displaystyle w nbsp 4 t 0 Xw 0 displaystyle t 0 gets Xw 0 nbsp 5 for k displaystyle k nbsp 0 to l displaystyle l nbsp 6 tk t k Tt k displaystyle t k gets t k T t k nbsp note this is a scalar 7 t k t k tk displaystyle t k gets t k t k nbsp 8 p k X k Tt k displaystyle p k gets X k T t k nbsp 9 qk yTt k displaystyle q k gets y T t k nbsp note this is a scalar 10 if qk displaystyle q k nbsp 0 11 l k displaystyle l gets k nbsp break the for loop 12 if k lt l displaystyle k lt l nbsp 13 X k 1 X k tkt k p k T displaystyle X k 1 gets X k t k t k p k T nbsp 14 w k 1 X k 1 Ty displaystyle w k 1 gets X k 1 T y nbsp 15 t k 1 X k 1 w k 1 displaystyle t k 1 gets X k 1 w k 1 nbsp 16 end for 17 define W displaystyle W nbsp to be the matrix with columns w 0 w 1 w l 1 displaystyle w 0 w 1 w l 1 nbsp Do the same to form the P displaystyle P nbsp matrix and q displaystyle q nbsp vector 18 B W PTW 1q displaystyle B gets W P T W 1 q nbsp 19 B0 q0 P 0 TB displaystyle B 0 gets q 0 P 0 T B nbsp 20 return B B0 displaystyle B B 0 nbsp Esta forma del algoritmo no requiere el centrado de la entrada X e Y Ya que esto se realiza implicitamente por el algoritmo Este algoritmo cuenta con deflacion de la matriz X Sustraccion de The Kid t k p k T Pero la deflacion del vector y no se lleva a cabo ya que no es necesario se puede demostrar que desinflar y produce los mismos resultados que no se desinfla La variable proporcionada por el usuario l es el limite en el numero de factores latentes en la regresion y si es igual al rango de la matriz X El algoritmo va a producir las estimaciones de regresion de minimos cuadrados para los B y B 0Extensiones editarEn 2002 se publico un nuevo metodo llamado proyecciones ortogonales a las estructuras latentes OPLS En OPLS datos variables continuas se separan en informacion predictiva y no correlacionadas Esto conduce a la mejora de los diagnosticos asi como de visualizacion mas facil de interpretar Sin embargo estos cambios solo mejoran la interpretabilidad no la capacidad de prediccion de los modelos PLS 11 L PLS regresion PLS se extiende a 3 bloques de datos conectados 12 Del mismo modo OPLS DA Analisis discriminante se puede aplicar cuando se trabaja con variables discretas como en la clasificacion y los estudios de biomarcadores Referencias editar Tenenhaus M Esposito Vinzi V Chatelinc Y M Lauro C enero de 2005 PLS path modeling PDF Computational Statistics amp Data Analysis 48 1 159 205 doi 10 1016 j csda 2004 03 005 enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Vinzi V Chin W W Henseler J et al eds 2010 Handbook of Partial Least Squares ISBN 978 3 540 32825 4 Se sugiere usar numero editores ayuda Tenenhaus M 2008 Component based structural equation modelling PDF Archivado desde el original el 3 de noviembre de 2013 Consultado el 1 de agosto de 2013 Wold S Sjostrom M Eriksson L 2001 PLS regression a basic tool of chemometrics Chemometrics and Intelligent Laboratory Systems 58 2 109 130 doi 10 1016 S0169 7439 01 00155 1 Lindgren F Geladi P Wold S 1993 The kernel algorithm for PLS J Chemometrics 7 45 59 doi 10 1002 cem 1180070104 de Jong S ter Braak C J F 1994 Comments on the PLS kernel algorithm J Chemometrics 8 2 169 174 doi 10 1002 cem 1180080208 Dayal B S MacGregor J F 1997 Improved PLS algorithms J Chemometrics 11 1 73 85 doi 10 1002 SICI 1099 128X 199701 11 1 lt 73 AID CEM435 gt 3 0 CO 2 de Jong S 1993 SIMPLS an alternative approach to partial least squares regression Chemometrics and Intelligent Laboratory Systems 18 3 251 263 doi 10 1016 0169 7439 93 85002 X Rannar S Lindgren F Geladi P Wold S 1994 A PLS Kernel Algorithm for Data Sets with Many Variables and Fewer Objects Part 1 Theory and Algorithm J Chemometrics 8 2 111 125 doi 10 1002 cem 1180080204 Abdi H 2010 Partial least squares regression and projection on latent structure regression PLS Regression Wiley Interdisciplinary Reviews Computational Statistics 2 97 106 doi 10 1002 wics 51 Trygg J Wold S 2002 Orthogonal Projections to Latent Structures Journal of Chemometrics 16 3 119 128 doi 10 1002 cem 695 Saeboa S Almoya T Flatbergb A Aastveita A H Martens H 2008 LPLS regression a method for prediction and classification under the influence of background information on predictor variables Chemometrics and Intelligent Laboratory Systems 91 2 121 132 doi 10 1016 j chemolab 2007 10 006 nbsp Datos Q422009 Obtenido de https es wikipedia org w index php title Regresion de minimos cuadrados parciales amp oldid 145837044, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos