fbpx
Wikipedia

Análisis discriminante lineal

Análisis Discriminante Lineal (ADL, o LDA por sus siglas en inglés) es una generalización del discriminante lineal de Fisher, un método utilizado en estadística, reconocimiento de patrones y aprendizaje de máquinas para encontrar una combinación lineal de rasgos que caracterizan o separan dos o más clases de objetos o eventos. La combinación resultante puede ser utilizada como un clasificador lineal, o, más comúnmente, para la reducción de dimensiones antes de la posterior clasificación.

LDA está estrechamente relacionado con el análisis de varianza (ANOVA) y el análisis de regresión, el cual también intenta expresar una variable dependiente como la combinación lineal de otras características o medidas.[1][2]​ Sin embargo, ANOVA usa variables independientes categóricas y una variable dependiente continua, mientras que el análisis discriminante tiene variables independientes continuas y una variable dependiente categórica (o sea, la etiqueta de clase). La regresión logística y la regresión probit son más parecidas a ADL que ANOVA, pues también explican una variable categórica por los valores de variables independientes continuas. Estos otros métodos son preferibles en aplicaciones donde no es razonable asumir que las variables independientes están normalmente distribuidas, lo cual es una suposición fundamental del método ADL.

ADL está también estrechamente relacionado con el análisis de componente principal (ACP) y el análisis factorial en que ambos buscan combinaciones lineales de variables que explican mejor los datos.[3]​ ADL explícitamente intenta modelar la diferencia entre las clases de datos. ACP por otro lado no toma en cuenta cualquier diferencia entre las clases, y el análisis factorial construye las combinaciones de características basadas en las diferencias en vez de las semejanzas. El análisis discriminante es también diferente del análisis factorial en que no es una técnica de independencia: una distinción entre las variables independientes y las variables dependientes (también llamadas variables de criterio) debe estar hecha.

ADL funciona cuando las medidas hechas sobre las variables independientes para cada observación son valores continuos. Al ocuparse de variables independientes categóricas, la técnica equivalente es el análisis discriminante de correspondencia.[4][5]

ADL para dos clases

Considere un conjunto de observaciones   (también llamadas características, atributos, variables o medidas) para cada muestra de un objeto o evento con clase conocida y. Este conjunto de muestras es conocido como conjunto de entrenamiento. El problema de clasificación consiste en encontrar a un buen estimador para la clase y de cualquier ejemplo con la misma distribución (no necesariamente del conjunto de entrenamiento) dada solamente una observación  .[6]:338

ADL enfrenta el problema asumiendo que las funciones de densidad de las probabilidades condicionales   y   siguen una distribución normal con parámetros de media y covarianza   , respectivamente. Bajo esta suposición, la solución óptima de Bayes es predecir puntos como en la segunda clase si el registro de las proporciones de probabilidad está debajo de algún umbral T, de tal modo que:

 

Más allá de cualquier suposición el clasificador resultante es referido como análisis discriminante cuadrático (ADC).

ADL en lugar de eso hace la suposición simplificadora adicional de homocedasticidad (las covarianzas de las clase son idénticas, con   ) y que las covarianzas tengan rango completo. En este caso, varios términos se cancelan:

 
  pues   es Hermitiano

y el anteriormente citado criterio de decisión se convierte en un umbral en el producto dot

 

para alguna constante de umbral c, donde

 
 

Esto quiere decir que el criterio de la entrada  , siendo y una clase, es puramente una función de esta combinación lineal de las observaciones conocidas.

Esto es frecuentemente útil para ver esta conclusión en términos geométricos: el criterio de una entrada   en una clase y es puramente una función de proyección de puntos   en el espacio-multidimensional sobre el vector   (así, solo se considera su dirección). En otras palabras, la observación forma parte de y, si la correspondiente   está ubicada en un cierto lado de un hiperplano perpendicular a  . La localización del plano está definida por el umbral c.

Análisis discriminante canónico para k clases

El análisis discriminante canónico (ADC) busca los ejes (k – 1 coordenadas canónicas, donde k es el número de clases) que mejor separan las categorías. Estas funciones lineales no están correlacionadas y definen, en efecto, un espacio óptimo k – 1 a través del conjunto n-dimensional de datos que mejor separa (las proyecciones en ese espacio) los k grupos. Ver ADL multiclase debajo para más detalles.

Discriminante Lineal de Fisher

Los términos de discriminante lineal de Fisher y ADL son a menudo usados para expresar la misma idea, aunque el artículo original de Fisher realmente describe un discriminante ligeramente diferente, que no hace algunas de las suposiciones de ADL como una distribución normal de las clases o covarianzas iguales entre las clases.[1]

Suponga que dos clases de observaciones tienen medias   y covarianzas  . Entonces, la combinación lineal de características  , tendrá medias   y varianzas   para  . Fisher definió la separación entre estas dos distribuciones por la proporción de la varianza entre las clases, entre la varianza dentro de las clases:

 

Esta medida es, en cierto sentido, una medida de la proporción de la señal de ruido para el etiquetado de clases. Puede demostrarse que la separación máxima ocurre cuando

 

Cuando las suposiciones de ADL son satisfechas, la ecuación citada anteriormente es equivalente a ADL.

Es notable ver que   es el vector normal al hiperplano discriminante. Como ejemplo, en problemas bidimensionales, la línea que mejor divide los dos grupos es perpendicular a  .

Generalmente, los puntos de datos que serán discriminados son proyectados sobre  , entonces el umbral que mejor separa los datos es escogido del análisis de la distribución en una dimensión. No hay regla general para el umbral. Sin embargo, si las proyecciones de puntos de ambas clases exhiben aproximadamente las mismas distribuciones, una buena elección sería el hiperplano entre las proyecciones de las dos medias   y  . En este caso el parámetro c en condición del umbral  , puede ser encontrado explícitamente:

. 

El método Otsu está relacionado con el discriminante lineal de Fisher, y se creó para binarizar el histograma de píxeles de una imagen en escala de grises, escogiendo óptimamente el umbral negro/blanco que minimiza la varianza dentro de las clases y maximiza la varianza entre las clases, de la escala de grises asignada a las clases de píxeles blanco y negro.

ADL Multiclase

En el caso donde existen más de dos clases, el análisis utilizado se deriva del discriminante de Fisher, que puede ser extendido para encontrar un subspacio que parezca contener toda la variabilidad de la clase. Esta generalización es debido a C. R. Rao.[7]​ Suponga que cada una de las clases C tiene una media   y la misma covarianza  . Entonces, la dispersión entre la variabilidad de las clases puede ser definida por la covarianza de las medias de las clases

 

donde   es la media de las medias de las clases. La separación de clases en una dirección   será dada en este caso por

 

Esto significa que cuando   es un vector propio de  , la separación será igual a su correspondiente valor propio.

Si   es diagonalizable, la variabilidad entre las características estará contenida en el subespacio abarcado por los vectores propios correspondientes a los C – 1 valores propios más grandes (si   está en el rango de C – 1 a lo sumo). Estos vectores propios son primordialmente usados en la reducción de características, como en ACP. Los vectores propios correspondientes a los valores propios más pequeños tienden a ser muy sensibles a la elección exacta de los datos de entrenamiento, y es usualmente necesario usar regularización como se describe en la siguiente sección.

Si la clasificación es requerida, en lugar de reducir la dimensión, hay un número de técnicas alternativas disponibles. Por ejemplo, las clases pueden estar particionadas, y el discriminante estándar de Fisher o ADL pueden ser usados para clasificar cada partición. Un ejemplo común de esto es "uno contra el resto" donde los puntos de una clase son agrupados, y todos lo demás puestos en otro grupo, y luego se aplica el ADL. Esto dará como resultado C clasificadores, cuyos resultados se combinan. Otro método común es la clasificación por parejas, donde un nuevo clasificador es creado para cada par de clases (dando C(C − 1)/2 clasificadores en total), con los clasificadores individuales combinados para producir una clasificación final.

ADL Incremental

La implementación típica de la técnica ADL requiere que todos los ejemplos estén disponibles por adelantado. Sin embargo, hay situaciones donde el conjunto de datos no está disponible en su totalidad y los datos de entrada son observados como un flujo. En este caso, es conveniente para la extracción de características por ADL, tener la habilidad de actualizar las características computadas por ADL, observando nuevos ejemplos sin correr el algoritmo sobre la totalidad del conjunto de datos. Por ejemplo, en muchas aplicaciones en tiempo real como la robótica móvil o el reconocimiento de caras en línea, es importante actualizar las características extraídas por ADL tan pronto como las observaciones nuevas estén disponibles. Una técnica de extracción que puede actualizar las características de ADL es simplemente observando los nuevos ejemplos. Este es un algoritmo ADL incremental, y su idea ha sido extensamente estudiada en las dos últimas décadas.[8]​ Catterjee y Roychowdhury propusieron un algoritmo ADL incremental que se organiza por sí solo para actualizar las características ADL.[9]​ En otro trabajo, Demir y Ozmehmet propusieron algoritmos de aprendizaje locales en línea, para actualizar características ADL incrementalmente utilizando la corrección de errores y las reglas de aprendizaje de Hebbian.[10]​ Posteriormente Aliyari derivó algoritmos incrementales rápidos para actualizar las características ADL observando los nuevos ejemplos.[8]

Uso práctico

En la práctica, las medias de las clases y las covarianzas no son conocidas. Estas, sin embargo, pueden ser estimadas por medio del conjunto de entrenamiento. Ya sea la estimación de la máxima verosimilitud, o la estimación máxima a posteriori, pueden ser usadas en lugar del valor exacto en las anteriormente citadas ecuaciones. Aunque las estimaciones de la covarianza pueden ser consideradas óptimas en ciertos casos, esto no quiere decir que el discriminante resultante obtenido de sustituir estos valores es óptimo en cualquier caso, aun si la suposición de clases normalmente distribuidas es correcta.

Otra complicación en aplicar ADL y el discriminante de Fisher a los datos reales ocurre cuando el número de medidas de cada ejemplo excede el número de ejemplos en cada clase.[3]​ En este caso, las estimaciones de la covarianza no tienen un rango completo, y así no puede ser invertida. Hay un número de formas para lidiar con esto. Una es usar la seudo inversa en lugar de la inversa utilizada en las fórmulas anteriores. Sin embargo, la mejor estabilidad numérica puede ser lograda primeramente proyectando el problema en el subespacio abarcado por  .[11]​ Otra estrategia para lidiar con un tamaño pequeño de los ejemplos es usar un estimador reducción de la matriz de covarianzas, el cual puede ser expresado matemáticamente como:

 

donde   es la matriz identidad, y   es la intensidad de reducción o parámetro de regularización. Esto conduce a un análisis discriminante regularizado o análisis discriminante de reducción o encogimiento.[12][13]

También, en muchos casos prácticos los discriminantes lineales no resultan adecuados. El ADL y el discriminante de Fisher pueden ser extendidos para el uso de la clasificación no lineal, usando el truco del kernel. Aquí, las observaciones originales son mapeadas efectivamente dentro de un espacio dimensional no lineal mayor. La clasificación lineal en este espacio no lineal, es entonces equivalente a la clasificación no lineal en el espacio original. El ejemplo más comúnmente utilizado para esto es el kernel del discriminante de Fisher.

ADL puede ser generalizado para el análisis discriminante múltiple, dónde c se convierte en una variable categórica con N estados posibles, en lugar de solo dos. Análogamente, si las densidades de clases condicionales   son normales, con covarianzas compartidas, entonces la estadística suficiente para   son los valores de las N proyecciones, los cuales están en el subespacio abarcado por las N medias, proyectados por la inversa de la matriz de covarianza. Estas proyecciones pueden ser encontradas solucionando el problema generalizado del valor propio, dónde el numerador es la matriz de covarianzas formada por las medias de los ejemplos, y el denominador es la matriz de covarianzas compartidas.

Aplicaciones

Además de los ejemplos anteriormente dados, ADL es aplicado en posicionamiento y administración de productos.

Predicción de bancarrota

En la predicción de bancarrota, basada en considerar proporciones y otras variables financieras, el análisis discriminante lineal fue el primer método estadístico aplicado sistemáticamente para explicar cuáles empresas entraron en bancarrota vs. supervivencia. A pesar de las limitaciones de ADL de considerar una distribución normal, el modelo de Edward Altman de 1968 es todavía un modelo esencial en aplicaciones prácticas.

Reconocimiento de caras

En el reconocimiento de caras computarizado, cada cara es representada por un gran número de valores de píxeles. El análisis discriminante lineal es primordialmente usado aquí para reducir el número de características a un número más práctico antes de la clasificación. Cada una de las nuevas dimensiones son una combinación lineal de valores de los píxeles, los cuales forman una plantilla. Las combinaciones lineales obtenidas usando el discriminante lineal de Fisher son denominadas ''caras de Fisher'', mientras que aquellas obtenidas usando el análisis de componente principal son denominadas ''caras propias''.

Márketing

En el márketing, el análisis discriminante es usado a menudo para determinar los factores que distinguen tipos diferentes de clientes y/o productos, sobre la base de las encuestas u otras formas de recopilación de datos. La regresión logística u otros métodos son ahora más comúnmente usados. El uso del análisis discriminante en el márketing puede estar descrito por los siguientes pasos:

  1. Formular el problema y recopilar datos — Identificar atributos sobresalientes que los consumidores usan para evaluar productos en esta categoría — Usar técnicas cuantitativas de investigación de márketing (como las encuestas), para coleccionar datos de una muestra de potenciales clientes de acuerdo a su evaluación de los atributos del producto. La etapa de la recolección de datos se hace usualmente por profesionales de investigación del márketing. En las encuestas se les pide a los clientes que evalúen un producto en la escala de 1 a 5(o de 1 a 7, o de 1 a 10) en una gama de atributos escogidos por el investigador. Aproximadamente entre cinco y veinte atributos son escogidos. Se pueden incluir cosas como: facilidad de uso, peso, exactitud, durabilidad, color, precio o el tamaño. Los atributos escogidos dependen del producto en estudio. Se hacen las mismas preguntas sobre todos los productos en el estudio. Los datos para productos múltiples son codificados y entran en un programa estadístico como R, SPSS o SAS. (Este paso es el mismo que en el análisis factorial).
  2. Estimar los Coeficientes de la Función Discriminante y determinar el grado de importancia y validez — Seleccionar el método apropiado de análisis discriminante. El método directo involucra estimar la función de discriminante a fin de que todos los estimadores sean evaluados simultáneamente. En un método paso a paso entran las predicciones secuencialmente. El método de dos grupos debería ser usado cuando la variable dependiente tiene dos categorías o estados. El método discriminante múltiple es usado cuando la variable dependiente tiene tres o más estados categóricos. Se utiliza Wilks’s Lambda para probar su impacto en SPSS o la estadística F en SAS. El método más comúnmente usado para probar la validez, es dividir la muestra en una valoración o muestra de análisis, y una validación o muestra reservada. La muestra de valoración es usada para construir la función discriminante. La muestra de validación se usa para construir una matriz de clasificación que contiene el número de casos correctamente clasificados e incorrectamente clasificados. El porcentaje de casos correctamente clasificados es denominado como proporción de impacto.
  3. Se trazan los resultados en un mapa bidimensional, se definen las dimensiones y se interpretan los resultados. El programa estadístico (o un módulo relacionado) mapeará los resultados. El mapa representará gráficamente cada producto (usualmente en espacios bidimensionales). La distancia entre un producto y otro indica cuán diferentes son. Las dimensiones deben ser etiquetadas por el investigador. Esto requiere un juicio subjetivo y es a menudo un gran reto. Vea mapeado perceptual.

Estudios biomédicos

La aplicación principal del análisis discriminante en medicina es la valoración del estado de severidad en los pacientes y prognosis de los resultados de la enfermedad. Por ejemplo, durante el análisis retrospectivo, los pacientes están divididos en grupos según la severidad de la enfermedad – ligera, moderada y severa. Luego los resultados del análisis clínico y de laboratorio son estudiados para revelar variables que son estadísticamente diferentes en los grupos estudiados. Usando estas variables las funciones discriminantes se construyen, lo cual ayuda a clasificar objetivamente la magnitud de la enfermedad en un futuro paciente en ligera, moderada o severa.

En la biología, principios similares son usados para clasificar y definir grupos de diferentes objetos biológicos, por ejemplo, para definir tipos de fagos de Salmonella enteritidis, basados en el espectro infrarrojo de la transformada de Fourier, para detectar una fuente animal de Escherichia coli, estudiando sus factores de virulencia, etc.[14][15]

Ciencias de la tierra

Este método puede ser utilizado para separar las zonas de alteración. Por ejemplo, cuando datos diferentes de zonas diversas están disponibles, el análisis discriminante puede encontrar un patrón dentro de los datos y clasificarlos eficazmente.[16]

Véase también

Referencias

  1. Fisher, R. A. (1936).
  2. McLachlan, G. J. (2004).
  3. Martinez, A. M.; Kak, A. C. (2001).
  4. Abdi, H. (2007) "Discriminant correspondence analysis."
  5. Perriere, G.; & Thioulouse, J. (2003).
  6. Venables, W. N.; Ripley, B. D. (2002).
  7. Rao, R. C. (1948).
  8. Aliyari Ghassabeh, Youness; Rudzicz, Frank; Moghaddam, Hamid Abrishami (2015-06-01).
  9. Chatterjee, C.; Roychowdhury, V.P. (1997-05-01).
  10. Demir, G. K.; Ozmehmet, K. (2005-03-01).
  11. Yu, H.; Yang, J. (2001).
  12. Friedman, J. H. (1989).
  13. Ahdesmäki, M.; Strimmer K. (2010) "Feature selection in omics prediction problems using cat scores and false nondiscovery rate control", Annals of Applied Statistics, 4 (1), 503–519.
  14. Preisner O, Guiomar R, Machado J, Menezes JC, Lopes JA.
  15. David DE, Lynne AM, Han J, Foley SL.
  16. Tahmasebi, P., Hezarkhani, A., & Mortazavi, M. (2010).
  •   Datos: Q1228929
  •   Multimedia: Discriminant analysis

análisis, discriminante, lineal, debe, confundirse, latent, dirichlet, allocation, análisis, discriminante, lineal, siglas, inglés, generalización, discriminante, lineal, fisher, método, utilizado, estadística, reconocimiento, patrones, aprendizaje, máquinas, . No debe confundirse con Latent Dirichlet Allocation Analisis Discriminante Lineal ADL o LDA por sus siglas en ingles es una generalizacion del discriminante lineal de Fisher un metodo utilizado en estadistica reconocimiento de patrones y aprendizaje de maquinas para encontrar una combinacion lineal de rasgos que caracterizan o separan dos o mas clases de objetos o eventos La combinacion resultante puede ser utilizada como un clasificador lineal o mas comunmente para la reduccion de dimensiones antes de la posterior clasificacion LDA esta estrechamente relacionado con el analisis de varianza ANOVA y el analisis de regresion el cual tambien intenta expresar una variable dependiente como la combinacion lineal de otras caracteristicas o medidas 1 2 Sin embargo ANOVA usa variables independientes categoricas y una variable dependiente continua mientras que el analisis discriminante tiene variables independientes continuas y una variable dependiente categorica o sea la etiqueta de clase La regresion logistica y la regresion probit son mas parecidas a ADL que ANOVA pues tambien explican una variable categorica por los valores de variables independientes continuas Estos otros metodos son preferibles en aplicaciones donde no es razonable asumir que las variables independientes estan normalmente distribuidas lo cual es una suposicion fundamental del metodo ADL ADL esta tambien estrechamente relacionado con el analisis de componente principal ACP y el analisis factorial en que ambos buscan combinaciones lineales de variables que explican mejor los datos 3 ADL explicitamente intenta modelar la diferencia entre las clases de datos ACP por otro lado no toma en cuenta cualquier diferencia entre las clases y el analisis factorial construye las combinaciones de caracteristicas basadas en las diferencias en vez de las semejanzas El analisis discriminante es tambien diferente del analisis factorial en que no es una tecnica de independencia una distincion entre las variables independientes y las variables dependientes tambien llamadas variables de criterio debe estar hecha ADL funciona cuando las medidas hechas sobre las variables independientes para cada observacion son valores continuos Al ocuparse de variables independientes categoricas la tecnica equivalente es el analisis discriminante de correspondencia 4 5 Indice 1 ADL para dos clases 2 Analisis discriminante canonico para k clases 3 Discriminante Lineal de Fisher 4 ADL Multiclase 5 ADL Incremental 6 Uso practico 7 Aplicaciones 7 1 Prediccion de bancarrota 7 2 Reconocimiento de caras 7 3 Marketing 7 4 Estudios biomedicos 7 5 Ciencias de la tierra 8 Vease tambien 9 ReferenciasADL para dos clases EditarConsidere un conjunto de observaciones x displaystyle vec x tambien llamadas caracteristicas atributos variables o medidas para cada muestra de un objeto o evento con clase conocida y Este conjunto de muestras es conocido como conjunto de entrenamiento El problema de clasificacion consiste en encontrar a un buen estimador para la clase y de cualquier ejemplo con la misma distribucion no necesariamente del conjunto de entrenamiento dada solamente una observacion x displaystyle vec x 6 338ADL enfrenta el problema asumiendo que las funciones de densidad de las probabilidades condicionales p x y 0 displaystyle p vec x y 0 y p x y 1 displaystyle p vec x y 1 siguen una distribucion normal con parametros de media y covarianza m 0 S 0 displaystyle left vec mu 0 Sigma 0 right m 1 S 1 displaystyle left vec mu 1 Sigma 1 right respectivamente Bajo esta suposicion la solucion optima de Bayes es predecir puntos como en la segunda clase si el registro de las proporciones de probabilidad esta debajo de algun umbral T de tal modo que x m 0 T S 0 1 x m 0 ln S 0 x m 1 T S 1 1 x m 1 ln S 1 gt T displaystyle vec x vec mu 0 T Sigma 0 1 vec x vec mu 0 ln Sigma 0 vec x vec mu 1 T Sigma 1 1 vec x vec mu 1 ln Sigma 1 gt T Mas alla de cualquier suposicion el clasificador resultante es referido como analisis discriminante cuadratico ADC ADL en lugar de eso hace la suposicion simplificadora adicional de homocedasticidad las covarianzas de las clase son identicas con S 0 S 1 S displaystyle Sigma 0 Sigma 1 Sigma y que las covarianzas tengan rango completo En este caso varios terminos se cancelan x T S 0 1 x x T S 1 1 x displaystyle vec x T Sigma 0 1 vec x vec x T Sigma 1 1 vec x x T S i 1 m i m i T S i 1 x displaystyle vec x T Sigma i 1 vec mu i vec mu i T Sigma i 1 vec x pues S i displaystyle Sigma i es Hermitianoy el anteriormente citado criterio de decision se convierte en un umbral en el producto dot w x gt c displaystyle vec w cdot vec x gt c para alguna constante de umbral c donde w S 1 m 1 m 0 displaystyle vec w Sigma 1 vec mu 1 vec mu 0 c 1 2 T m 0 T S 0 1 m 0 m 1 T S 1 1 m 1 displaystyle c frac 1 2 T vec mu 0 T Sigma 0 1 vec mu 0 vec mu 1 T Sigma 1 1 vec mu 1 Esto quiere decir que el criterio de la entrada x displaystyle vec x siendo y una clase es puramente una funcion de esta combinacion lineal de las observaciones conocidas Esto es frecuentemente util para ver esta conclusion en terminos geometricos el criterio de una entrada x displaystyle vec x en una clase y es puramente una funcion de proyeccion de puntos x displaystyle vec x en el espacio multidimensional sobre el vector w displaystyle vec w asi solo se considera su direccion En otras palabras la observacion forma parte de y si la correspondiente x displaystyle vec x esta ubicada en un cierto lado de un hiperplano perpendicular a w displaystyle vec w La localizacion del plano esta definida por el umbral c Analisis discriminante canonico para k clases EditarEl analisis discriminante canonico ADC busca los ejes k 1 coordenadas canonicas donde k es el numero de clases que mejor separan las categorias Estas funciones lineales no estan correlacionadas y definen en efecto un espacio optimo k 1 a traves del conjunto n dimensional de datos que mejor separa las proyecciones en ese espacio los k grupos Ver ADL multiclase debajo para mas detalles Discriminante Lineal de Fisher EditarLos terminos de discriminante lineal de Fisher y ADL son a menudo usados para expresar la misma idea aunque el articulo original de Fisher realmente describe un discriminante ligeramente diferente que no hace algunas de las suposiciones de ADL como una distribucion normal de las clases o covarianzas iguales entre las clases 1 Suponga que dos clases de observaciones tienen medias m 0 m 1 displaystyle vec mu 0 vec mu 1 y covarianzas S 0 S 1 displaystyle Sigma 0 Sigma 1 Entonces la combinacion lineal de caracteristicas w x displaystyle vec w cdot vec x tendra medias w m i displaystyle vec w cdot vec mu i y varianzas w T S i w displaystyle vec w T Sigma i vec w para i 0 1 displaystyle i 0 1 Fisher definio la separacion entre estas dos distribuciones por la proporcion de la varianza entre las clases entre la varianza dentro de las clases S s between 2 s within 2 w m 1 w m 0 2 w T S 1 w w T S 0 w w m 1 m 0 2 w T S 0 S 1 w displaystyle S frac sigma text between 2 sigma text within 2 frac vec w cdot vec mu 1 vec w cdot vec mu 0 2 vec w T Sigma 1 vec w vec w T Sigma 0 vec w frac vec w cdot vec mu 1 vec mu 0 2 vec w T Sigma 0 Sigma 1 vec w Esta medida es en cierto sentido una medida de la proporcion de la senal de ruido para el etiquetado de clases Puede demostrarse que la separacion maxima ocurre cuando w S 0 S 1 1 m 1 m 0 displaystyle vec w propto Sigma 0 Sigma 1 1 vec mu 1 vec mu 0 Cuando las suposiciones de ADL son satisfechas la ecuacion citada anteriormente es equivalente a ADL Es notable ver que w displaystyle vec w es el vector normal al hiperplano discriminante Como ejemplo en problemas bidimensionales la linea que mejor divide los dos grupos es perpendicular a w displaystyle vec w Generalmente los puntos de datos que seran discriminados son proyectados sobre w displaystyle vec w entonces el umbral que mejor separa los datos es escogido del analisis de la distribucion en una dimension No hay regla general para el umbral Sin embargo si las proyecciones de puntos de ambas clases exhiben aproximadamente las mismas distribuciones una buena eleccion seria el hiperplano entre las proyecciones de las dos medias w m 0 displaystyle vec w cdot vec mu 0 y w m 1 displaystyle vec w cdot vec mu 1 En este caso el parametro c en condicion del umbral w x gt c displaystyle vec w cdot vec x gt c puede ser encontrado explicitamente c w 1 2 m 0 m 1 1 2 m 1 T S 1 m 1 1 2 m 0 T S 1 m 0 displaystyle c vec w cdot frac 1 2 vec mu 0 vec mu 1 frac 1 2 vec mu 1 T Sigma 1 vec mu 1 frac 1 2 vec mu 0 T Sigma 1 vec mu 0 El metodo Otsu esta relacionado con el discriminante lineal de Fisher y se creo para binarizar el histograma de pixeles de una imagen en escala de grises escogiendo optimamente el umbral negro blanco que minimiza la varianza dentro de las clases y maximiza la varianza entre las clases de la escala de grises asignada a las clases de pixeles blanco y negro ADL Multiclase EditarEn el caso donde existen mas de dos clases el analisis utilizado se deriva del discriminante de Fisher que puede ser extendido para encontrar un subspacio que parezca contener toda la variabilidad de la clase Esta generalizacion es debido a C R Rao 7 Suponga que cada una de las clases C tiene una media m i displaystyle mu i y la misma covarianza S displaystyle Sigma Entonces la dispersion entre la variabilidad de las clases puede ser definida por la covarianza de las medias de las clases S b 1 C i 1 C m i m m i m T displaystyle Sigma b frac 1 C sum i 1 C mu i mu mu i mu T donde m displaystyle mu es la media de las medias de las clases La separacion de clases en una direccion w displaystyle vec w sera dada en este caso por S w T S b w w T S w displaystyle S frac vec w T Sigma b vec w vec w T Sigma vec w Esto significa que cuando w displaystyle vec w es un vector propio de S 1 S b displaystyle Sigma 1 Sigma b la separacion sera igual a su correspondiente valor propio Si S 1 S b displaystyle Sigma 1 Sigma b es diagonalizable la variabilidad entre las caracteristicas estara contenida en el subespacio abarcado por los vectores propios correspondientes a los C 1 valores propios mas grandes si S b displaystyle Sigma b esta en el rango de C 1 a lo sumo Estos vectores propios son primordialmente usados en la reduccion de caracteristicas como en ACP Los vectores propios correspondientes a los valores propios mas pequenos tienden a ser muy sensibles a la eleccion exacta de los datos de entrenamiento y es usualmente necesario usar regularizacion como se describe en la siguiente seccion Si la clasificacion es requerida en lugar de reducir la dimension hay un numero de tecnicas alternativas disponibles Por ejemplo las clases pueden estar particionadas y el discriminante estandar de Fisher o ADL pueden ser usados para clasificar cada particion Un ejemplo comun de esto es uno contra el resto donde los puntos de una clase son agrupados y todos lo demas puestos en otro grupo y luego se aplica el ADL Esto dara como resultado C clasificadores cuyos resultados se combinan Otro metodo comun es la clasificacion por parejas donde un nuevo clasificador es creado para cada par de clases dando C C 1 2 clasificadores en total con los clasificadores individuales combinados para producir una clasificacion final ADL Incremental EditarLa implementacion tipica de la tecnica ADL requiere que todos los ejemplos esten disponibles por adelantado Sin embargo hay situaciones donde el conjunto de datos no esta disponible en su totalidad y los datos de entrada son observados como un flujo En este caso es conveniente para la extraccion de caracteristicas por ADL tener la habilidad de actualizar las caracteristicas computadas por ADL observando nuevos ejemplos sin correr el algoritmo sobre la totalidad del conjunto de datos Por ejemplo en muchas aplicaciones en tiempo real como la robotica movil o el reconocimiento de caras en linea es importante actualizar las caracteristicas extraidas por ADL tan pronto como las observaciones nuevas esten disponibles Una tecnica de extraccion que puede actualizar las caracteristicas de ADL es simplemente observando los nuevos ejemplos Este es un algoritmo ADL incremental y su idea ha sido extensamente estudiada en las dos ultimas decadas 8 Catterjee y Roychowdhury propusieron un algoritmo ADL incremental que se organiza por si solo para actualizar las caracteristicas ADL 9 En otro trabajo Demir y Ozmehmet propusieron algoritmos de aprendizaje locales en linea para actualizar caracteristicas ADL incrementalmente utilizando la correccion de errores y las reglas de aprendizaje de Hebbian 10 Posteriormente Aliyari derivo algoritmos incrementales rapidos para actualizar las caracteristicas ADL observando los nuevos ejemplos 8 Uso practico EditarEn la practica las medias de las clases y las covarianzas no son conocidas Estas sin embargo pueden ser estimadas por medio del conjunto de entrenamiento Ya sea la estimacion de la maxima verosimilitud o la estimacion maxima a posteriori pueden ser usadas en lugar del valor exacto en las anteriormente citadas ecuaciones Aunque las estimaciones de la covarianza pueden ser consideradas optimas en ciertos casos esto no quiere decir que el discriminante resultante obtenido de sustituir estos valores es optimo en cualquier caso aun si la suposicion de clases normalmente distribuidas es correcta Otra complicacion en aplicar ADL y el discriminante de Fisher a los datos reales ocurre cuando el numero de medidas de cada ejemplo excede el numero de ejemplos en cada clase 3 En este caso las estimaciones de la covarianza no tienen un rango completo y asi no puede ser invertida Hay un numero de formas para lidiar con esto Una es usar la seudo inversa en lugar de la inversa utilizada en las formulas anteriores Sin embargo la mejor estabilidad numerica puede ser lograda primeramente proyectando el problema en el subespacio abarcado por S b displaystyle Sigma b 11 Otra estrategia para lidiar con un tamano pequeno de los ejemplos es usar un estimador reduccion de la matriz de covarianzas el cual puede ser expresado matematicamente como S 1 l S l I displaystyle Sigma 1 lambda Sigma lambda I donde I displaystyle I es la matriz identidad y l displaystyle lambda es la intensidad de reduccion o parametro de regularizacion Esto conduce a un analisis discriminante regularizado o analisis discriminante de reduccion o encogimiento 12 13 Tambien en muchos casos practicos los discriminantes lineales no resultan adecuados El ADL y el discriminante de Fisher pueden ser extendidos para el uso de la clasificacion no lineal usando el truco del kernel Aqui las observaciones originales son mapeadas efectivamente dentro de un espacio dimensional no lineal mayor La clasificacion lineal en este espacio no lineal es entonces equivalente a la clasificacion no lineal en el espacio original El ejemplo mas comunmente utilizado para esto es el kernel del discriminante de Fisher ADL puede ser generalizado para el analisis discriminante multiple donde c se convierte en una variable categorica con N estados posibles en lugar de solo dos Analogamente si las densidades de clases condicionales p x c i displaystyle p vec x c i son normales con covarianzas compartidas entonces la estadistica suficiente para P c x displaystyle P c vec x son los valores de las N proyecciones los cuales estan en el subespacio abarcado por las N medias proyectados por la inversa de la matriz de covarianza Estas proyecciones pueden ser encontradas solucionando el problema generalizado del valor propio donde el numerador es la matriz de covarianzas formada por las medias de los ejemplos y el denominador es la matriz de covarianzas compartidas Aplicaciones EditarAdemas de los ejemplos anteriormente dados ADL es aplicado en posicionamiento y administracion de productos Prediccion de bancarrota Editar En la prediccion de bancarrota basada en considerar proporciones y otras variables financieras el analisis discriminante lineal fue el primer metodo estadistico aplicado sistematicamente para explicar cuales empresas entraron en bancarrota vs supervivencia A pesar de las limitaciones de ADL de considerar una distribucion normal el modelo de Edward Altman de 1968 es todavia un modelo esencial en aplicaciones practicas Reconocimiento de caras Editar En el reconocimiento de caras computarizado cada cara es representada por un gran numero de valores de pixeles El analisis discriminante lineal es primordialmente usado aqui para reducir el numero de caracteristicas a un numero mas practico antes de la clasificacion Cada una de las nuevas dimensiones son una combinacion lineal de valores de los pixeles los cuales forman una plantilla Las combinaciones lineales obtenidas usando el discriminante lineal de Fisher son denominadas caras de Fisher mientras que aquellas obtenidas usando el analisis de componente principal son denominadas caras propias Marketing Editar En el marketing el analisis discriminante es usado a menudo para determinar los factores que distinguen tipos diferentes de clientes y o productos sobre la base de las encuestas u otras formas de recopilacion de datos La regresion logistica u otros metodos son ahora mas comunmente usados El uso del analisis discriminante en el marketing puede estar descrito por los siguientes pasos Formular el problema y recopilar datos Identificar atributos sobresalientes que los consumidores usan para evaluar productos en esta categoria Usar tecnicas cuantitativas de investigacion de marketing como las encuestas para coleccionar datos de una muestra de potenciales clientes de acuerdo a su evaluacion de los atributos del producto La etapa de la recoleccion de datos se hace usualmente por profesionales de investigacion del marketing En las encuestas se les pide a los clientes que evaluen un producto en la escala de 1 a 5 o de 1 a 7 o de 1 a 10 en una gama de atributos escogidos por el investigador Aproximadamente entre cinco y veinte atributos son escogidos Se pueden incluir cosas como facilidad de uso peso exactitud durabilidad color precio o el tamano Los atributos escogidos dependen del producto en estudio Se hacen las mismas preguntas sobre todos los productos en el estudio Los datos para productos multiples son codificados y entran en un programa estadistico como R SPSS o SAS Este paso es el mismo que en el analisis factorial Estimar los Coeficientes de la Funcion Discriminante y determinar el grado de importancia y validez Seleccionar el metodo apropiado de analisis discriminante El metodo directo involucra estimar la funcion de discriminante a fin de que todos los estimadores sean evaluados simultaneamente En un metodo paso a paso entran las predicciones secuencialmente El metodo de dos grupos deberia ser usado cuando la variable dependiente tiene dos categorias o estados El metodo discriminante multiple es usado cuando la variable dependiente tiene tres o mas estados categoricos Se utiliza Wilks s Lambda para probar su impacto en SPSS o la estadistica F en SAS El metodo mas comunmente usado para probar la validez es dividir la muestra en una valoracion o muestra de analisis y una validacion o muestra reservada La muestra de valoracion es usada para construir la funcion discriminante La muestra de validacion se usa para construir una matriz de clasificacion que contiene el numero de casos correctamente clasificados e incorrectamente clasificados El porcentaje de casos correctamente clasificados es denominado como proporcion de impacto Se trazan los resultados en un mapa bidimensional se definen las dimensiones y se interpretan los resultados El programa estadistico o un modulo relacionado mapeara los resultados El mapa representara graficamente cada producto usualmente en espacios bidimensionales La distancia entre un producto y otro indica cuan diferentes son Las dimensiones deben ser etiquetadas por el investigador Esto requiere un juicio subjetivo y es a menudo un gran reto Vea mapeado perceptual Estudios biomedicos Editar La aplicacion principal del analisis discriminante en medicina es la valoracion del estado de severidad en los pacientes y prognosis de los resultados de la enfermedad Por ejemplo durante el analisis retrospectivo los pacientes estan divididos en grupos segun la severidad de la enfermedad ligera moderada y severa Luego los resultados del analisis clinico y de laboratorio son estudiados para revelar variables que son estadisticamente diferentes en los grupos estudiados Usando estas variables las funciones discriminantes se construyen lo cual ayuda a clasificar objetivamente la magnitud de la enfermedad en un futuro paciente en ligera moderada o severa En la biologia principios similares son usados para clasificar y definir grupos de diferentes objetos biologicos por ejemplo para definir tipos de fagos de Salmonella enteritidis basados en el espectro infrarrojo de la transformada de Fourier para detectar una fuente animal de Escherichia coli estudiando sus factores de virulencia etc 14 15 Ciencias de la tierra Editar Este metodo puede ser utilizado para separar las zonas de alteracion Por ejemplo cuando datos diferentes de zonas diversas estan disponibles el analisis discriminante puede encontrar un patron dentro de los datos y clasificarlos eficazmente 16 Vease tambien EditarMineria de datos Aprendizaje basado en arboles de la decision Analisis factorial Logit Para regresion logistica Escalamiento multidimensional Reconocimiento de patrones PerceptronReferencias Editar a b Fisher R A 1936 McLachlan G J 2004 a b Martinez A M Kak A C 2001 Abdi H 2007 Discriminant correspondence analysis Perriere G amp Thioulouse J 2003 Venables W N Ripley B D 2002 Rao R C 1948 a b Aliyari Ghassabeh Youness Rudzicz Frank Moghaddam Hamid Abrishami 2015 06 01 Chatterjee C Roychowdhury V P 1997 05 01 Demir G K Ozmehmet K 2005 03 01 Yu H Yang J 2001 Friedman J H 1989 Ahdesmaki M Strimmer K 2010 Feature selection in omics prediction problems using cat scores and false nondiscovery rate control Annals of Applied Statistics 4 1 503 519 Preisner O Guiomar R Machado J Menezes JC Lopes JA David DE Lynne AM Han J Foley SL Tahmasebi P Hezarkhani A amp Mortazavi M 2010 Datos Q1228929 Multimedia Discriminant analysisObtenido de https es wikipedia org w index php title Analisis discriminante lineal amp oldid 133046781, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos