fbpx
Wikipedia

Aprendizaje supervisado

En aprendizaje automático y minería de datos, el aprendizaje supervisado es una técnica para deducir una función a partir de datos de entrenamiento. Los datos de entrenamiento consisten de pares de objetos (normalmente vectores): una componente del par son los datos de entrada y el otro, los resultados deseados. La salida de la función puede ser un valor numérico (como en los problemas de regresión) o una etiqueta de clase (como en los de clasificación). El objetivo del aprendizaje supervisado es el de crear una función capaz de predecir el valor correspondiente a cualquier objeto de entrada válida después de haber visto una serie de ejemplos, los datos de entrenamiento. Para ello, tiene que generalizar a partir de los datos presentados a las situaciones no vistas previamente.

En esto difiere del aprendizaje no supervisado.

Información general

El aprendizaje supervisado puede generar modelos de dos tipos. Por lo general, genera una función que transforma los datos de entrada en los resultados deseados.

Con el fin de resolver un determinado problema de aprendizaje supervisado (por ejemplo, aprender a reconocer la escritura) uno tiene que considerar varios pasos:

  1. Determinar el tipo de ejemplos de entrenamiento. Antes de hacer cualquier otra cosa, hay que decidir qué tipo de datos se va a utilizar para entrenar el modelo. Por ejemplo, podría ser un único carácter a mano, una palabra completa escrita a mano, o toda una línea de escritura a mano.
  2. Reunir un conjunto de entrenamiento. El conjunto de necesidades de formación a las características propias del uso del mundo real de la función. Por lo tanto, un conjunto de objetos de entrada que se recopila y salidas correspondientes se recogen también, ya sea humana o de los expertos a partir de mediciones.
  3. Determinar la función de ingreso de la representación de la función aprendido. La precisión de la función aprendida depende en gran medida de cómo el objeto de entrada está representado. Normalmente, el objeto de entrada se transforma en un vector de características, que contiene una serie de características que son descriptivos del objeto. El número de características no debe ser demasiado grande, a causa de la maldición de la dimensionalidad, pero debe ser lo suficientemente grande como para predecir con precisión la salida.
  4. Determinar la estructura de la función adecuada para resolver y el problema y la técnica de aprendizaje correspondiente. Por ejemplo, se podría optar por utilizar red neuronal artificial o un árbol de decisión.
  5. Completar el diseño. El ingeniero a continuación, ejecuta el algoritmo de aprendizaje en el conjunto de la formación obtenida. Parámetros del algoritmo de aprendizaje puede ser ajustado mediante la optimización de rendimiento en un subconjunto de ellas (llamado conjunto de validación) del conjunto de entrenamiento, o por medio de la validación cruzada. Después del ajuste de parámetros y de aprendizaje, el desempeño del algoritmo se puede medir utilizando un conjunto de pruebas independiente del de entrenamiento.

Otro término para el aprendizaje supervisado es la clasificación. Una amplia gama de clasificadores están disponibles, cada uno con sus fortalezas y debilidades. Clasificador rendimiento depende en gran medida de las características de los datos que deben clasificarse. No hay una clasificación única que funciona mejor en todos los problemas dados, lo que también se conoce como el No hay almuerzo gratis teorema. Diversas pruebas empíricas se han realizado para comparar el rendimiento del clasificador y para encontrar las características de los datos que determinan el rendimiento del clasificador. La determinación de un clasificador adecuado para un problema dado, sin embargo aún más un arte que una ciencia.

Los clasificadores más utilizados son las redes neuronales, como el (perceptrón multicapa); las máquinas de vectores de soporte; el algoritmo de los K vecinos más cercanos, los modelos de mixturas; el clasificador bayesiano ingenuo; los árboles de decisión y las funciones de base radial.

Minimización del riesgo empírico

El objetivo del aprendizaje supervisado es encontrar una función g, dado un conjunto de puntos de la forma (x, g(x)).

Se supone que el conjunto de puntos para los que el comportamiento de los g es conocido es una muestra de variables aleatorias independientes idénticamente distribuidas de acuerdo con una distribución de probabilidad desconocida p. Por otra parte, se considera una función de pérdida L:

 

donde Y es el dominio de g, y L es una función mapas en el número no negativo real s (nuevas restricciones pueden ser colocados enL) . La cantidad L(z, y) es la pérdida sufrida en la predicción de z, como el valor de g cuando su valor verdadero es y.

El riesgo asociado con una función f es la esperanza de la función de pérdida:

 

Si la distribución de probabilidad p es continua se puede reescribir la fórmula anterior usando una integral en lugar de un sumatorio..

Ahora el objetivo es encontrar una función f* entre una subclase fijo de funciones para las que el riesgoR( f *) es mínima .

Sin embargo, dado el comportamiento de los g generalmente solo es conocido por un conjunto finito de puntos (x1, y1), ..., (xnyn), uno sólo puede aproximar el verdadero riesgo, por ejemplo con el riesgo empírico:

 

Selección de la función f* que minimiza el riesgo empírico se conoce como el principio de minimización empírica de riesgos. Teoría estadística de aprendizaje investiga bajo qué condiciones la minimización del riesgo empírico es admisible y lo bien que las aproximaciones se puede esperar que sea.

Aprendizaje Activo

Hay situaciones en las que los datos sin etiqueta es abundante, pero los datos de etiquetado es caro. En esta situación, el algoritmo de aprendizaje de manera activa la consulta del usuario / profesor para las etiquetas. Este tipo de aprendizaje supervisado iterativo se llama aprendizaje activo. Dado que el estudiante elige los ejemplos, el número de ejemplos para aprender un concepto a menudo pueden ser mucho menores que el número requerido en el aprendizaje supervisado normal. Con este enfoque se corre el riesgo de que el algoritmo puede centrarse en importancia ni como ejemplos válidos.

El aprendizaje activo puede ser especialmente útil en problemas de investigación biológica, como ingeniería de proteínas, donde unas pocas proteínas han sido descubiertos con una cierta función interesante y se quiere determinar cuál de las muchas posibles mutantes que el próximo que tendrá un.[1]

Definiciones

Que   es el conjunto total de todos los datos en cuestión. Por ejemplo, en un problema de ingeniería de proteínas,   se incluyen todas las proteínas que se sabe que tienen una determinada actividad interesante y todas las proteínas adicionales que uno podría querer poner a prueba para esa actividad.

Durante cada iteración,  ,   se divide en tres subgrupos:

  1.  : Puntos cuya etiqueta es conocida
  2.  : Puntos cuya etiqueta es desconocida
  3.  : Un subconjunto de   escogido para ser etiquetado

La mayoría de las investigaciones actuales en el aprendizaje activo implica que el mejor método para elegir los puntos de datos para  .

Hiperplano marginal mínima

Algunos de los algoritmos de aprendizaje activo se basan en máquinas de vectores de soporte y aprovechar la estructura de la SVM para determinar qué puntos de datos a la etiqueta. Estos métodos suelen calcular el margen,  , de cada dato sin etiqueta en   y tratar   como una distancia n-dimensional a partir de ese dato a la separación de hiperplano.

métodos mínima marginal Hiperplano suponer que los datos con> los más pequeños   son las que el SVM es más seguro acerca de, por lo que debe ser colocado en   se etiqueten . Otros métodos similares, como máximo marginal Hiperplano, elija los datos con> el mayor  . métodos de relaciones de intercambio elegir una combinación de la menor y la mayor   s.

Máxima curiosidad

Otro método de aprendizaje activo, que normalmente se entera de un conjunto de datos con menos ejemplos de mínima Hiperplano marginal, pero es más intensivo en cómputo y sólo para los clasificadores discreto es máxima curiosidad.[2]

curiosidad máxima tiene en cada uno sin etiqueta de referencia en   y asume todas las etiquetas posibles ese dato pueda tener. Este dato supone con cada clase se añade a   y luego el nuevo   cruz validados. Se supone que cuando el dato es emparejado con su etiqueta correcta, la exactitud de validación cruzada (o correlación coeficiente) de   mejorará más. El dato con la precisión que más ha mejorado se coloca en   se etiqueten.

Enfoques y algoritmos

Aplicaciones

Cuestiones generales

Notas

  1. Danziger, SA, Swamidass, SJ, Zeng, J., escasez, LR, Lu, P., Chen, JH, Cheng, J., Hoang, vicepresidente de Saigo, H., Luo, R ., Baldi, P., Brachmann, RK y el censo funcional Lathrop, RH de secuencia de espacios mutación: el ejemplo de mutantes de p53 cáncer de rescate, (2006) IEEE / ACM transacciones en la biología computacional y bioinformática, 3, 114-125.
  2. Danziger, SA, Zeng, J., Wang , Y., Brachmann, RK y Lathrop, RH Elegir dónde mirar en un espacio siguiente secuencia de mutación: Aprendizaje Activo de mutantes de p53 informativo del cáncer de rescate, (2007) Bioinformática, 23 (13 104-114).

Referencias

  • S. Kotsiantis, supervisado Aprendizaje Automático: Una Revisión de la Clasificación de las técnicas de Informática Diario 31 (2007) 249-268 (http://www.informatica.si/PDF/31-3/11_Kotsiantis% (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última). 20 -%%% 20Supervised 20Machine 20Learning 20% -% 20A% 20de% ... 20Review pdf).
  • Lise Getoor y Taskar Ben: Introducciónaestadística de relación de aprendizaje, MIT Press, 2007.

Enlaces externos

    •   Datos: Q334384

    aprendizaje, supervisado, aprendizaje, automático, minería, datos, aprendizaje, supervisado, técnica, para, deducir, función, partir, datos, entrenamiento, datos, entrenamiento, consisten, pares, objetos, normalmente, vectores, componente, datos, entrada, otro. En aprendizaje automatico y mineria de datos el aprendizaje supervisado es una tecnica para deducir una funcion a partir de datos de entrenamiento Los datos de entrenamiento consisten de pares de objetos normalmente vectores una componente del par son los datos de entrada y el otro los resultados deseados La salida de la funcion puede ser un valor numerico como en los problemas de regresion o una etiqueta de clase como en los de clasificacion El objetivo del aprendizaje supervisado es el de crear una funcion capaz de predecir el valor correspondiente a cualquier objeto de entrada valida despues de haber visto una serie de ejemplos los datos de entrenamiento Para ello tiene que generalizar a partir de los datos presentados a las situaciones no vistas previamente En esto difiere del aprendizaje no supervisado Indice 1 Informacion general 2 Minimizacion del riesgo empirico 3 Aprendizaje Activo 3 1 Definiciones 3 2 Hiperplano marginal minima 3 3 Maxima curiosidad 4 Enfoques y algoritmos 5 Aplicaciones 6 Cuestiones generales 7 Notas 8 Referencias 9 Enlaces externosInformacion general EditarEl aprendizaje supervisado puede generar modelos de dos tipos Por lo general genera una funcion que transforma los datos de entrada en los resultados deseados Con el fin de resolver un determinado problema de aprendizaje supervisado por ejemplo aprender a reconocer la escritura uno tiene que considerar varios pasos Determinar el tipo de ejemplos de entrenamiento Antes de hacer cualquier otra cosa hay que decidir que tipo de datos se va a utilizar para entrenar el modelo Por ejemplo podria ser un unico caracter a mano una palabra completa escrita a mano o toda una linea de escritura a mano Reunir un conjunto de entrenamiento El conjunto de necesidades de formacion a las caracteristicas propias del uso del mundo real de la funcion Por lo tanto un conjunto de objetos de entrada que se recopila y salidas correspondientes se recogen tambien ya sea humana o de los expertos a partir de mediciones Determinar la funcion de ingreso de la representacion de la funcion aprendido La precision de la funcion aprendida depende en gran medida de como el objeto de entrada esta representado Normalmente el objeto de entrada se transforma en un vector de caracteristicas que contiene una serie de caracteristicas que son descriptivos del objeto El numero de caracteristicas no debe ser demasiado grande a causa de la maldicion de la dimensionalidad pero debe ser lo suficientemente grande como para predecir con precision la salida Determinar la estructura de la funcion adecuada para resolver y el problema y la tecnica de aprendizaje correspondiente Por ejemplo se podria optar por utilizar red neuronal artificial o un arbol de decision Completar el diseno El ingeniero a continuacion ejecuta el algoritmo de aprendizaje en el conjunto de la formacion obtenida Parametros del algoritmo de aprendizaje puede ser ajustado mediante la optimizacion de rendimiento en un subconjunto de ellas llamado conjunto de validacion del conjunto de entrenamiento o por medio de la validacion cruzada Despues del ajuste de parametros y de aprendizaje el desempeno del algoritmo se puede medir utilizando un conjunto de pruebas independiente del de entrenamiento Otro termino para el aprendizaje supervisado es la clasificacion Una amplia gama de clasificadores estan disponibles cada uno con sus fortalezas y debilidades Clasificador rendimiento depende en gran medida de las caracteristicas de los datos que deben clasificarse No hay una clasificacion unica que funciona mejor en todos los problemas dados lo que tambien se conoce como el No hay almuerzo gratis teorema Diversas pruebas empiricas se han realizado para comparar el rendimiento del clasificador y para encontrar las caracteristicas de los datos que determinan el rendimiento del clasificador La determinacion de un clasificador adecuado para un problema dado sin embargo aun mas un arte que una ciencia Los clasificadores mas utilizados son las redes neuronales como el perceptron multicapa las maquinas de vectores de soporte el algoritmo de los K vecinos mas cercanos los modelos de mixturas el clasificador bayesiano ingenuo los arboles de decision y las funciones de base radial Minimizacion del riesgo empirico EditarEl objetivo del aprendizaje supervisado es encontrar una funcion g dado un conjunto de puntos de la forma x g x Se supone que el conjunto de puntos para los que el comportamiento de los g es conocido es una muestra de variables aleatorias independientes identicamente distribuidas de acuerdo con una distribucion de probabilidad desconocida p Por otra parte se considera una funcion de perdida L L Y Y R 0 displaystyle L Y times Y to mathbb R geq 0 donde Y es el dominio de g y L es una funcion mapas en el numero no negativo real s nuevas restricciones pueden ser colocados enL La cantidad L z y es la perdida sufrida en la prediccion de z como el valor de g cuando su valor verdadero es y El riesgo asociado con una funcion f es la esperanza de la funcion de perdida R f i L f x i g x i p x i displaystyle R f sum i L f x i g x i p x i Si la distribucion de probabilidad p es continua se puede reescribir la formula anterior usando una integral en lugar de un sumatorio Ahora el objetivo es encontrar una funcion f entre una subclase fijo de funciones para las que el riesgoR f es minima Sin embargo dado el comportamiento de los g generalmente solo es conocido por un conjunto finito de puntos x1 y1 xnyn uno solo puede aproximarel verdadero riesgo por ejemplo con elriesgo empirico R n f 1 n i 1 n L f x i y i displaystyle tilde R n f frac 1 n sum i 1 n L f x i y i Seleccion de la funcion f que minimiza el riesgo empirico se conoce como el principio de minimizacion empirica de riesgos Teoria estadistica de aprendizaje investiga bajo que condiciones la minimizacion del riesgo empirico es admisible y lo bien que las aproximaciones se puede esperar que sea Aprendizaje Activo EditarHay situaciones en las que los datos sin etiqueta es abundante pero los datos de etiquetado es caro En esta situacion el algoritmo de aprendizaje de manera activa la consulta del usuario profesor para las etiquetas Este tipo de aprendizaje supervisado iterativo se llama aprendizaje activo Dado que el estudiante elige los ejemplos el numero de ejemplos para aprender un concepto a menudo pueden ser mucho menores que el numero requerido en el aprendizaje supervisado normal Con este enfoque se corre el riesgo de que el algoritmo puede centrarse en importancia ni como ejemplos validos El aprendizaje activo puede ser especialmente util en problemas de investigacion biologica como ingenieria de proteinas donde unas pocas proteinas han sido descubiertos con una cierta funcion interesante y se quiere determinar cual de las muchas posibles mutantes que el proximo que tendra un 1 Definiciones Editar Que T displaystyle T es el conjunto total de todos los datos en cuestion Por ejemplo en un problema de ingenieria de proteinas T displaystyle T se incluyen todas las proteinas que se sabe que tienen una determinada actividad interesante y todas las proteinas adicionales que uno podria querer poner a prueba para esa actividad Durante cada iteracion i displaystyle i T displaystyle T se divide en tres subgrupos T K i displaystyle mathbf T K i Puntos cuya etiqueta es conocida T U i displaystyle mathbf T U i Puntos cuya etiqueta es desconocida T C i displaystyle mathbf T C i Un subconjunto de T U i displaystyle T U i escogido para ser etiquetadoLa mayoria de las investigaciones actuales en el aprendizaje activo implica que el mejor metodo para elegir los puntos de datos para T C i displaystyle T C i Hiperplano marginal minima Editar Algunos de los algoritmos de aprendizaje activo se basan en maquinas de vectores de soporte y aprovechar la estructura de la SVM para determinar que puntos de datos a la etiqueta Estos metodos suelen calcular el margen W displaystyle W de cada dato sin etiqueta en T U i displaystyle T U i y tratar W displaystyle W como una distancia n dimensional a partir de ese dato a la separacion de hiperplano metodos minima marginal Hiperplano suponer que los datos con gt los mas pequenos W displaystyle W son las que el SVM es mas seguro acerca de por lo que debe ser colocado en T C i displaystyle T C i se etiqueten Otros metodos similares como maximo marginal Hiperplano elija los datos con gt el mayor W displaystyle W metodos de relaciones de intercambio elegir una combinacion de la menor y la mayor W displaystyle W s Maxima curiosidad Editar Otro metodo de aprendizaje activo que normalmente se entera de un conjunto de datos con menos ejemplos de minima Hiperplano marginal pero es mas intensivo en computo y solo para los clasificadores discreto es maxima curiosidad 2 curiosidad maxima tiene en cada uno sin etiqueta de referencia en T U i displaystyle T U i y asume todas las etiquetas posibles ese dato pueda tener Este dato supone con cada clase se anade a T K i displaystyle T K i y luego el nuevo T K i displaystyle T K i cruz validados Se supone que cuando el dato es emparejado con su etiqueta correcta la exactitud de validacion cruzada o correlacion coeficiente de T K i displaystyle T K i mejorara mas El dato con la precision que mas ha mejorado se coloca en T C i displaystyle T C i se etiqueten Enfoques y algoritmos EditarAnalitica de aprendizaje Red neuronal artificial Propagacion hacia atras Boosting Estadistica bayesiana Razonamiento basado en casos Aprendizaje basado en arboles de decision Inductivo logica de programacion Krigeaje Programacion genetica Metodo de agrupamiento para el manejo de datos nucleo Aprendizaje automatico La longitud del mensaje minima arbol de decision graficos de decision Clasificador bayesiano ingenuo Regresion logistica multinomial Campo aleatorio condicional Algoritmo del vecino mas proximo Aprendizaje PAC Rizado establecen las normas una metodologia de adquisicion de conocimientos Aprendizaje automatico Simbolico Aprendizaje automatico Subsimbolico Maquinas de vectores de soporte Random Forest Los conjuntos de clasificadores Clasificacion ordinal Pre procesamiento de datos Bases de datos Manejo desequilibrada Estadistica de aprendizaje relacionalAplicaciones EditarBioinformatica Quimioinformatica Relacion cuantitativa estructura actividad Mercadotecnia de bases de datos Reconocimiento de escritura Recuperacion de informacion Aprendizaje de clasificacion Reconocimiento de objetos en vision artificial Reconocimiento optico de caracteres Spam deteccion Reconocimiento de patrones Reconocimiento del habla Prevision estados financieros fraudulentosCuestiones generales EditarTeoria del aprendizaje computacional Sesgo inductivo Overfitting Sin calibrar probabilidades pertenencia a una clase Espacio de versiones Aprendizaje no supervisadoNotas Editar Danziger SA Swamidass SJ Zeng J escasez LR Lu P Chen JH Cheng J Hoang vicepresidente de Saigo H Luo R Baldi P Brachmann RK y el censo funcional Lathrop RH de secuencia de espacios mutacion el ejemplo de mutantes de p53 cancer de rescate 2006 IEEE ACM transacciones en la biologia computacional y bioinformatica 3 114 125 Danziger SA Zeng J Wang Y Brachmann RK y Lathrop RH Elegir donde mirar en un espacio siguiente secuencia de mutacion Aprendizaje Activo de mutantes de p53 informativo del cancer de rescate 2007 Bioinformatica 23 13 104 114 Referencias EditarS Kotsiantis supervisado Aprendizaje Automatico Una Revision de la Clasificacion de las tecnicas de Informatica Diario 31 2007 249 268 http www informatica si PDF 31 3 11 Kotsiantis enlace roto disponible en Internet Archive vease el historial la primera version y la ultima 20 20Supervised 20Machine 20Learning 20 20A 20de 20Review pdf Lise Getoor y Taskar Ben Introduccionaestadistica de relacion de aprendizaje MIT Press 2007 Enlaces externos EditarMaquina varias implementaciones de algoritmos de aprendizaje supervisado en Ruby Datos Q334384 Obtenido de https es wikipedia org w index php title Aprendizaje supervisado amp oldid 133248401, wikipedia, wiki, leyendo, leer, libro, biblioteca,

    español

    , española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos