fbpx
Wikipedia

Análisis de componentes principales

En estadística, el análisis de componentes principales (en español ACP, en inglés, PCA) es una técnica utilizada para describir un conjunto de datos en términos de nuevas variables («componentes») no correlacionadas. Los componentes se ordenan por la cantidad de varianza original que describen, por lo que la técnica es útil para reducir la dimensionalidad de un conjunto de datos.

ACP de una distribución normal multivariante centrada en (1,3) con desviación estándar 3 en la dirección aproximada (0,866, 0,5) y desviación estándar 1 en la dirección perpendicular a la anterior. Los vectores muestran los autovectores de la matriz de correlación escalados mediante la raíz cuadrada del correspondiente autovalor, y desplazados para que su origen coincidan con la media estadística.

Técnicamente, el ACP busca la proyección según la cual los datos queden mejor representados en términos de mínimos cuadrados. Esta convierte un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables sin correlación lineal llamadas componentes principales.

El ACP se emplea sobre todo en análisis exploratorio de datos y para construir modelos predictivos. El ACP comporta el cálculo de la descomposición en autovalores de la matriz de covarianza, normalmente tras centrar los datos en la media de cada atributo.

Debe diferenciarse del análisis factorial con el que tiene similitudes formales y en el cual puede ser utilizado como un método de aproximación para la extracción de factores.

Fundamento

El ACP construye una transformación lineal que escoge un nuevo sistema de coordenadas para el conjunto original de datos en el cual la varianza de mayor tamaño del conjunto de datos es capturada en el primer eje (llamado el Primer Componente Principal), la segunda varianza más grande es el segundo eje, y así sucesivamente. Para construir esta transformación lineal debe construirse primero la matriz de covarianza o matriz de coeficientes de correlación. Debido a la simetría de esta matriz existe una base completa de vectores propios de la misma. La transformación que lleva de las antiguas coordenadas a las coordenadas de la nueva base es precisamente la transformación lineal necesaria para reducir la dimensionalidad de datos. Además las coordenadas en la nueva base dan la composición en factores subyacentes de los datos iniciales.

El ACP es particularmente útil para reducir la dimensionalidad de un grupo de datos. Los primeros componentes principales describen la mayor parte de la varianza de los datos (más cuanto más correlacionadas estuvieran las variables originales). Estos componentes de bajo orden a veces contienen el aspecto "más importante" de la información, y los demás componentes se pueden ignorar. Existen diferentes técnicas para estimar el número de componentes principales que son relevantes; la técnica más apropiada dependerá de la estructura de correlaciones en los datos originales.[1]

Matemáticas del ACP

Supongamos que existe una muestra con n individuos para cada uno de los cuales se han medido m variables (aleatorias)   El ACP permite encontrar un número de factores subyacentes p < m que explican aproximadamente el valor de las m variables para cada individuo. El hecho de que existan estos p factores subyacentes puede interpretarse como una reducción de la dimensionalidad de los datos: donde antes necesitabamos m valores para caracterizar a cada individuo ahora nos bastan p valores. Cada uno de los p encontrados se llama componente principal, de ahí el nombre del método.

Existen dos formas básicas de aplicar el ACP:

  1. Método basado en la matriz de correlación, cuando los datos no son dimensionalmente homogéneos o el orden de magnitud de las variables aleatorias medidas no es el mismo.
  2. Método basado en la matriz de covarianzas, que se usa cuando los datos son dimensionalmente homogéneos y presentan valores medios similares.

Método basado en correlaciones

El método parte de la matriz de correlaciones, consideremos el valor de cada una de las m variables aleatorias  . Para cada uno de los n individuos tomemos el valor de estas variables y escribamos el conjunto de datos en forma de matriz:

 .

Obsérvese que cada conjunto

 

puede considerarse una muestra aleatoria para la variable  . A partir de los   datos correspondientes a las m variables aleatorias, puede construirse la matriz de correlación muestral, que viene definida por:

  donde  

Puesto que la matriz de correlaciones es simétrica entonces resulta diagonalizable y sus valores propios   verifican:

 

Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno de los m componentes principales. Los factores principales identificados matemáticamente se representan por la base de vectores propios de la matriz  . Está claro que cada una de las variables puede ser expresada como combinación lineal de los vectores propios o componentes principales.

Método basado en las covarianzas

El objetivo es transformar un conjunto dado de datos X de dimensión n x m a otro conjunto de datos Y de menor dimensión n x l con la menor perdida de información útil posible utilizando para ello la matriz de covarianza.

Se parte de un conjunto n de muestras cada una de las cuales tiene m variables que las describen y el objetivo es que, cada una de esas muestras, se describa con solo I variables, donde l < m. Además, el número de componentes principales l tiene que ser inferior a la menor de las dimensiones de X.

 

Los datos para el análisis tienen que estar centrados a media 0 (restándoles la media de cada columna) y/o autoescalados(centrados a media 0 y dividiendo cada columna por su desviación estándar).

 

Los vectores   son conocidos como scores y contienen la información de cómo las muestras están relacionadas unas con otras además, tienen la propiedad de ser ortogonales. Los vectores   se llaman loadings e informan de la relación existente entre las variables y tienen la cualidad de ser ortonormales. Al coger menos componentes principales que variables y debido al error de ajuste del modelo con los datos, se produce un error que se acumula en la matriz  .

El PCA se basa en la descomposición en vectores propios de la matriz de covarianza. La cual se calcula con la siguiente ecuación:

 
 
 

Donde   es el valor propio asociado al vector propio  . Por último,

 

Esta ecuación la podemos entender como que   son las proyecciones de X en  , donde los valores propios   miden la cantidad de varianza capturada, es decir, la información que representan cada uno de los componentes principales. La cantidad de información que captura cada componente principal va disminuyendo según su número es decir, el componente principal número uno representa más información que el dos y así sucesivamente.

Limitaciones

La aplicación del ACP está limitada por varios supuestos[2]

  • Suposición de linealidad: Se asume que los datos observados son combinación lineal de una cierta base.

Ejemplos

  • Un conjunto de datos puede describir la altura y el peso de 100 niños entre 2 y 15 años. Ambas variables están, obviamente, correlacionadas (los niños de más edad son más altos y pesan más). El análisis de componentes principales describe los datos en términos de dos nuevas variables. El primer componente se puede interpretar como "tamaño" o "edad" y recoge la mayor parte de la varianza de los datos originales. El segundo componente describe variabilidad en los datos que no está correlacionada en absoluto con el primer componente principal "tamaño", y (probablemente) sea difícil de interpretar. Si el objetivo es reducir la dimensionalidad de los datos, se puede descartar este segundo componente principal. Lo mismo aplica si el conjunto de datos contiene un número mayor de variables que se pueden interpretar como medidas aproximadas de "tamaño". Por ejemplo, longitud del fémur, longitud de los brazos, peso, altura, etc. Un conjunto de datos de este tipo podría describirse generalmente con un único componente principal que se podría interpretar como "tamaño" o "edad".
  • Un análisis consideró las calificaciones escolares de n = 15 estudiantes en m = 8 materias (lengua, matemáticas, física, inglés, filosofía, historia, química, gimnasia). Los dos primeros componentes principales explicaban juntos el 82,1% de la varianza. El primero de ellos parecía fuertemente correlacionado con las materias de humanidades (lengua, inglés, filosofía, historia) mientras que el segundo aparecía relacionado con las materias de ciencias (matemáticas, física, química). Así parece que existe un conjunto de habilidades cognitivas relacionadas con las humanidades y un segundo relacionado con las ciencias, estos dos conjuntos de habilidades son estadísticamente independientes por lo que un alumno puede puntuar alto en solo uno de ellos, en los dos o en ninguno.[3]
  • Una análisis de 11 indicadores socieconómicos de 96 países, reveló que los resultados podían explicarse en alto grado a partir de solo dos componentes principales, el primero de ellos tenía que ver con el nivel de PIB total del país y el segundo con el índice de ruralidad.

Aplicación en filogenética

Se puede realizar el análisis de componentes principales (PCA) con perfiles de expresión génica. En un artículo publicado en 2019 en la revista Nature communications [4]​se utiliza esta técnica con los perfiles de expresión de 19 muestras de diferentes cepas del complejo proteico de Mycobacterium tuberculosis, como resultado se obtiene que muestras pertenecientes al mismo linaje filogenético están agrupados estrechamente en el PCA.

 
Perfiles transcriptómicos globales de las muestras. a.La gráfica de PCA muestra que las muestras que pertenecen al mismo clado filogenético tienden a agruparse de cerca, excepto en dos casos. b Un análisis de racimos refuerza la tendencia derivada del PCA.

Referencia

  1. Peres-Neto, Pedro R.; Jackson, Donald A.; Somers, Keith M. «How many principal components? stopping rules for determining the number of non-trivial axes revisited». Computational Statistics & Data Analysis 49 (4): 974-997. doi:10.1016/j.csda.2004.06.015. Consultado el 22 de abril de 2018. 
  2. Jonathon Shlens.A Tutorial on Principal Component Analysis.
  3. Ejemplos de PCA (www.uoc.edu) el 29 de diciembre de 2009 en Wayback Machine.
  4. Chiner-Oms, Álvaro; Berney, Michael; Boinett, Christine; González-Candelas, Fernando; Young, Douglas B.; Gagneux, Sebastien; Jacobs, William R.; Parkhill, Julian et al. (2019-12). «Genome-wide mutational biases fuel transcriptional diversity in the Mycobacterium tuberculosis complex». Nature Communications (en inglés) 10 (1): 3994. ISSN 2041-1723. PMC PMC6728331 |pmc= incorrecto (ayuda). PMID 31488832. doi:10.1038/s41467-019-11948-6. Consultado el 28 de enero de 2020. 

Enlaces externos

  • Matemáticas del ACP y ejemplos (Universidad Carlos III de Madrid)
  •   Datos: Q2873
  •   Multimedia: Principal component analysis

análisis, componentes, principales, estadística, análisis, componentes, principales, español, inglés, técnica, utilizada, para, describir, conjunto, datos, términos, nuevas, variables, componentes, correlacionadas, componentes, ordenan, cantidad, varianza, ori. En estadistica el analisis de componentes principales en espanol ACP en ingles PCA es una tecnica utilizada para describir un conjunto de datos en terminos de nuevas variables componentes no correlacionadas Los componentes se ordenan por la cantidad de varianza original que describen por lo que la tecnica es util para reducir la dimensionalidad de un conjunto de datos ACP de una distribucion normal multivariante centrada en 1 3 con desviacion estandar 3 en la direccion aproximada 0 866 0 5 y desviacion estandar 1 en la direccion perpendicular a la anterior Los vectores muestran los autovectores de la matriz de correlacion escalados mediante la raiz cuadrada del correspondiente autovalor y desplazados para que su origen coincidan con la media estadistica Tecnicamente el ACP busca la proyeccion segun la cual los datos queden mejor representados en terminos de minimos cuadrados Esta convierte un conjunto de observaciones de variables posiblemente correlacionadas en un conjunto de valores de variables sin correlacion lineal llamadas componentes principales El ACP se emplea sobre todo en analisis exploratorio de datos y para construir modelos predictivos El ACP comporta el calculo de la descomposicion en autovalores de la matriz de covarianza normalmente tras centrar los datos en la media de cada atributo Debe diferenciarse del analisis factorial con el que tiene similitudes formales y en el cual puede ser utilizado como un metodo de aproximacion para la extraccion de factores Indice 1 Fundamento 2 Matematicas del ACP 2 1 Metodo basado en correlaciones 2 2 Metodo basado en las covarianzas 2 3 Limitaciones 3 Ejemplos 4 Aplicacion en filogenetica 5 Referencia 5 1 Enlaces externosFundamento EditarEl ACP construye una transformacion lineal que escoge un nuevo sistema de coordenadas para el conjunto original de datos en el cual la varianza de mayor tamano del conjunto de datos es capturada en el primer eje llamado el Primer Componente Principal la segunda varianza mas grande es el segundo eje y asi sucesivamente Para construir esta transformacion lineal debe construirse primero la matriz de covarianza o matriz de coeficientes de correlacion Debido a la simetria de esta matriz existe una base completa de vectores propios de la misma La transformacion que lleva de las antiguas coordenadas a las coordenadas de la nueva base es precisamente la transformacion lineal necesaria para reducir la dimensionalidad de datos Ademas las coordenadas en la nueva base dan la composicion en factores subyacentes de los datos iniciales El ACP es particularmente util para reducir la dimensionalidad de un grupo de datos Los primeros componentes principales describen la mayor parte de la varianza de los datos mas cuanto mas correlacionadas estuvieran las variables originales Estos componentes de bajo orden a veces contienen el aspecto mas importante de la informacion y los demas componentes se pueden ignorar Existen diferentes tecnicas para estimar el numero de componentes principales que son relevantes la tecnica mas apropiada dependera de la estructura de correlaciones en los datos originales 1 Matematicas del ACP EditarSupongamos que existe una muestra con n individuos para cada uno de los cuales se han medido m variables aleatorias F j displaystyle F j El ACP permite encontrar un numero de factores subyacentes p lt m que explican aproximadamente el valor de las m variables para cada individuo El hecho de que existan estos p factores subyacentes puede interpretarse como una reduccion de la dimensionalidad de los datos donde antes necesitabamos m valores para caracterizar a cada individuo ahora nos bastan p valores Cada uno de los p encontrados se llama componente principal de ahi el nombre del metodo Existen dos formas basicas de aplicar el ACP Metodo basado en la matriz de correlacion cuando los datos no son dimensionalmente homogeneos o el orden de magnitud de las variables aleatorias medidas no es el mismo Metodo basado en la matriz de covarianzas que se usa cuando los datos son dimensionalmente homogeneos y presentan valores medios similares Metodo basado en correlaciones Editar El metodo parte de la matriz de correlaciones consideremos el valor de cada una de las m variables aleatorias F j displaystyle F j Para cada uno de los n individuos tomemos el valor de estas variables y escribamos el conjunto de datos en forma de matriz F j b j 1 m b 1 n displaystyle F j beta j 1 ldots m beta 1 ldots n Observese que cada conjunto M j F j b b 1 n displaystyle mathcal M j F j beta beta 1 ldots n puede considerarse una muestra aleatoria para la variable F j displaystyle F j A partir de los m n displaystyle m times n datos correspondientes a las m variables aleatorias puede construirse la matriz de correlacion muestral que viene definida por R r i j M m m displaystyle mathbf R r ij in M m times m qquad donde r i j cov F i F j var F i var F j displaystyle qquad r ij frac mbox cov F i F j sqrt mbox var F i mbox var F j Puesto que la matriz de correlaciones es simetrica entonces resulta diagonalizable y sus valores propios l i displaystyle lambda i verifican i 1 m l i m displaystyle sum i 1 m lambda i m Debido a la propiedad anterior estos m valores propios reciben el nombre de pesos de cada uno de los m componentes principales Los factores principales identificados matematicamente se representan por la base de vectores propios de la matriz R displaystyle mathbf R Esta claro que cada una de las variables puede ser expresada como combinacion lineal de los vectores propios o componentes principales Metodo basado en las covarianzas Editar El objetivo es transformar un conjunto dado de datos X de dimension n x m a otro conjunto de datos Y de menor dimension n x l con la menor perdida de informacion util posible utilizando para ello la matriz de covarianza Se parte de un conjunto n de muestras cada una de las cuales tiene m variables que las describen y el objetivo es que cada una de esas muestras se describa con solo I variables donde l lt m Ademas el numero de componentes principales l tiene que ser inferior a la menor de las dimensiones de X l min n m displaystyle l leq min n m Los datos para el analisis tienen que estar centrados a media 0 restandoles la media de cada columna y o autoescalados centrados a media 0 y dividiendo cada columna por su desviacion estandar X a 1 l t a p a T E displaystyle mathbf X sum a 1 l mathbf t a mathbf p a T mathbf E Los vectores t a displaystyle scriptstyle mathbf t a son conocidos como scores y contienen la informacion de como las muestras estan relacionadas unas con otras ademas tienen la propiedad de ser ortogonales Los vectores p a displaystyle scriptstyle mathbf p a se llaman loadings e informan de la relacion existente entre las variables y tienen la cualidad de ser ortonormales Al coger menos componentes principales que variables y debido al error de ajuste del modelo con los datos se produce un error que se acumula en la matriz E displaystyle scriptstyle mathbf E El PCA se basa en la descomposicion en vectores propios de la matriz de covarianza La cual se calcula con la siguiente ecuacion cov X X T X n 1 displaystyle mbox cov X frac X T X n 1 cov X p a l a p a displaystyle mbox cov X mathbf p a lambda a mathbf p a a 1 m l a 1 displaystyle sum a 1 m lambda a 1 Donde l a displaystyle scriptstyle lambda a es el valor propio asociado al vector propio p a displaystyle scriptstyle mathbf p a Por ultimo t a X p a displaystyle mathbf t a X mathbf p a Esta ecuacion la podemos entender como que t a displaystyle scriptstyle mathbf t a son las proyecciones de X en p a displaystyle scriptstyle mathbf p a donde los valores propios l a displaystyle scriptstyle lambda a miden la cantidad de varianza capturada es decir la informacion que representan cada uno de los componentes principales La cantidad de informacion que captura cada componente principal va disminuyendo segun su numero es decir el componente principal numero uno representa mas informacion que el dos y asi sucesivamente Limitaciones Editar La aplicacion del ACP esta limitada por varios supuestos 2 Suposicion de linealidad Se asume que los datos observados son combinacion lineal de una cierta base Ejemplos EditarUn conjunto de datos puede describir la altura y el peso de 100 ninos entre 2 y 15 anos Ambas variables estan obviamente correlacionadas los ninos de mas edad son mas altos y pesan mas El analisis de componentes principales describe los datos en terminos de dos nuevas variables El primer componente se puede interpretar como tamano o edad y recoge la mayor parte de la varianza de los datos originales El segundo componente describe variabilidad en los datos que no esta correlacionada en absoluto con el primer componente principal tamano y probablemente sea dificil de interpretar Si el objetivo es reducir la dimensionalidad de los datos se puede descartar este segundo componente principal Lo mismo aplica si el conjunto de datos contiene un numero mayor de variables que se pueden interpretar como medidas aproximadas de tamano Por ejemplo longitud del femur longitud de los brazos peso altura etc Un conjunto de datos de este tipo podria describirse generalmente con un unico componente principal que se podria interpretar como tamano o edad Un analisis considero las calificaciones escolares de n 15 estudiantes en m 8 materias lengua matematicas fisica ingles filosofia historia quimica gimnasia Los dos primeros componentes principales explicaban juntos el 82 1 de la varianza El primero de ellos parecia fuertemente correlacionado con las materias de humanidades lengua ingles filosofia historia mientras que el segundo aparecia relacionado con las materias de ciencias matematicas fisica quimica Asi parece que existe un conjunto de habilidades cognitivas relacionadas con las humanidades y un segundo relacionado con las ciencias estos dos conjuntos de habilidades son estadisticamente independientes por lo que un alumno puede puntuar alto en solo uno de ellos en los dos o en ninguno 3 Una analisis de 11 indicadores socieconomicos de 96 paises revelo que los resultados podian explicarse en alto grado a partir de solo dos componentes principales el primero de ellos tenia que ver con el nivel de PIB total del pais y el segundo con el indice de ruralidad Aplicacion en filogenetica EditarSe puede realizar el analisis de componentes principales PCA con perfiles de expresion genica En un articulo publicado en 2019 en la revista Nature communications 4 se utiliza esta tecnica con los perfiles de expresion de 19 muestras de diferentes cepas del complejo proteico de Mycobacterium tuberculosis como resultado se obtiene que muestras pertenecientes al mismo linaje filogenetico estan agrupados estrechamente en el PCA Perfiles transcriptomicos globales de las muestras a La grafica de PCA muestra que las muestras que pertenecen al mismo clado filogenetico tienden a agruparse de cerca excepto en dos casos b Un analisis de racimos refuerza la tendencia derivada del PCA Referencia Editar Peres Neto Pedro R Jackson Donald A Somers Keith M How many principal components stopping rules for determining the number of non trivial axes revisited Computational Statistics amp Data Analysis 49 4 974 997 doi 10 1016 j csda 2004 06 015 Consultado el 22 de abril de 2018 Jonathon Shlens A Tutorial on Principal Component Analysis Ejemplos de PCA www uoc edu Archivado el 29 de diciembre de 2009 en Wayback Machine Chiner Oms Alvaro Berney Michael Boinett Christine Gonzalez Candelas Fernando Young Douglas B Gagneux Sebastien Jacobs William R Parkhill Julian et al 2019 12 Genome wide mutational biases fuel transcriptional diversity in the Mycobacterium tuberculosis complex Nature Communications en ingles 10 1 3994 ISSN 2041 1723 PMC PMC6728331 pmc incorrecto ayuda PMID 31488832 doi 10 1038 s41467 019 11948 6 Consultado el 28 de enero de 2020 Se sugiere usar numero autores ayuda Enlaces externos Editar Matematicas del ACP y ejemplos Universidad Carlos III de Madrid Datos Q2873 Multimedia Principal component analysisObtenido de https es wikipedia org w index php title Analisis de componentes principales amp oldid 133276794, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos