fbpx
Wikipedia

Random forest

Random forest (o random forests) también conocidos en castellano como '"Bosques Aleatorios"' es una combinación de árboles predictores tal que cada árbol depende de los valores de un vector aleatorio probado independientemente y con la misma distribución para cada uno de estos. Es una modificación sustancial de bagging que construye una larga colección de árboles no correlacionados y luego los promedia.[1][2]

El algoritmo para inducir un random forest fue desarrollado por Leo Breiman[3]​ y Adele Cutler y Random forests es su marca de fábrica. El término aparece de la primera propuesta de Random decision forests, hecha por Tin Kam Ho de Bell Labs en 1995. El método combina la idea de bagging de Breiman y la selección aleatoria de atributos, introducida independientemente por Ho,[4][5]​ Amit y Geman,[6]​ para construir una colección de árboles de decisión con variación controlada.

La selección de un subconjunto aleatorio de atributos es un ejemplo del método random subspace, el que, según la formulación de Ho, es una manera de llevar a cabo la discriminación estocástica[7]​ propuesta por Eugenio Kleinberg.

En muchos problemas el rendimiento del algoritmo random forest es muy similar a la del boosting, y es más simple de entrenar y ajustar. Como consecuencia, el Random forest es popular y ampliamente utilizado.

Definición de Random forests

La idea esencial del bagging es promediar muchos modelos ruidosos pero aproximadamente imparciales, y por tanto reducir la variación. Los árboles son los candidatos ideales para el bagging, dado que ellos pueden registrar estructuras de interacción compleja en los datos, y si crecen suficientemente profundo, tienen relativamente baja parcialidad. Producto de que los árboles son notoriamente ruidosos, ellos se benefician enormemente al promediar.

Cada árbol es construido usando el siguiente algoritmo:

  1. Sea N el número de casos de prueba, M es el número de variables en el clasificador.
  2. Sea m el número de variables de entrada a ser usado para determinar la decisión en un nodo dado; m debe ser mucho menor que M
  3. Elegir un conjunto de entrenamiento para este árbol y usar el resto de los casos de prueba para estimar el error.
  4. Para cada nodo del árbol, elegir aleatoriamente m variables en las cuales basar la decisión. Calcular la mejor partición del conjunto de entrenamiento a partir de las m variables.

Para la predicción un nuevo caso es empujado hacia abajo por el árbol. Luego se le asigna la etiqueta del nodo terminal donde termina. Este proceso es iterado por todos los árboles en el ensamblado, y la etiqueta que obtenga la mayor cantidad de incidencias es reportada como la predicción.

Características (o rasgos) y Ventajas

Las ventajas del random forests son:[8]

  • Ser uno de los algoritmos de aprendizaje más certeros que hay disponible. Para un set de datos lo suficientemente grande produce un clasificador muy certero.[9]
  • Correr eficientemente en bases de datos grandes.
  • Manejar cientos de variables de entrada sin excluir ninguna.
  • Dar estimaciones de qué variables son importantes en la clasificación.[1][2]
  • Tener un método eficaz para estimar datos perdidos y mantener la exactitud cuando una gran proporción de los datos está perdida.
  • Computar los prototipos que dan información sobre la relación entre las variables y la clasificación.
  • Computar las proximidades entre los pares de casos que pueden usarse en los grupos, localizando valores atípicos, o (ascendiendo) dando vistas interesantes de los datos.
  • Ofrecer un método experimental para detectar las interacciones de las variables.

Desventajas

  • Se ha observado que Random forests sobreajusta en ciertos grupos de datos con tareas de clasificación/regresión ruidosas.[10]
  • A diferencia de los árboles de decisión, la clasificación hecha por random forests es difícil de interpretar.[11]
  • Para los datos que incluyen variables categóricas con diferente número de niveles, el random forests se parcializa a favor de esos atributos con más niveles. Por consiguiente, la posición que marca la variable no es fiable para este tipo de datos. Métodos como las permutaciones parciales se han usado para resolver el problema[12][13]
  • Si los datos contienen grupos de atributos correlacionados con similar relevancia para el rendimiento, entonces los grupos más pequeños están favorecidos sobre los grupos más grandes.[14]

Visualización

 
Datos de entrenamiento.
 
Visualización de Random Forest después del entrenamiento.
 
Modelo de regresión logística después de entrenamiento.

Para formar una visualización intuitiva del espacio-modelo representado por un random forests, se creó un set de datos que consiste en 200 puntos aleatorios (100 puntos verdes y 100 puntos rojos). Los puntos verdes eran obtenidos a partir de una distribución Gaussiana con un centroide en (0,1), y los puntos rojos eran obtenidos de una distribución de Gaussiana con un centroide en (1,0). En ambos casos, la variación era circular con un radio medio de 1.

El modelo del random forest, consistente de 50 árboles, entrenados usando estos datos. La pureza del color indica la porción de los 50 árboles que votaron de acuerdo. Un over-fit (sobre ajuste) significativo puede ser observado en la visualización de Random Forest después del entrenamiento.

En contraste, se presenta la visualización de un modelo de regresión logístico (menos propenso al sobre ajuste), que también fue entrenado usando estos mismos datos.

Véase también

  • Random multinomial logit
  • Random naive Bayes

Referencias

  1. Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06). «Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems». Journal of Transportation Engineering, Part B: Pavements (en inglés) 146 (2): 04020022. ISSN 2573-5438. doi:10.1061/JPEODX.0000175. Consultado el 7 de agosto de 2020. 
  2. Hastie, Trevor.; Friedman, J. H. (Jerome H.) (2001). The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations. Springer. ISBN 0-387-95284-5. OCLC 46809224. Consultado el 7 de agosto de 2020. 
  3. Breiman, Leo (2001). «Random Forests». Machine Learning 45 (1): 5-32. doi:10.1023/A:1010933404324. 
  4. Ho, Tin Kam (1995). . Proceedings of the 3rd International Conference on Document Analysis and Recognition, Montreal, QC, 14–16 August 1995. pp. 278-282. Archivado desde el original el 4 de julio de 2008. 
  5. Ho, Tin Kam (1998). . IEEE Transactions on Pattern Analysis and Machine Intelligence 20 (8): 832-844. doi:10.1109/34.709601. Archivado desde el original el 30 de septiembre de 2007. 
  6. Amit, Yali; Geman, Donald (1997). . Neural Computation 9 (7): 1545-1588. doi:10.1162/neco.1997.9.7.1545. Archivado desde el original el 5 de febrero de 2018. Consultado el 3 de enero de 2013. 
  7. Kleinberg, Eugene (1996). . Annals of Statistics 24 (6): 2319-2349. MR 1425956. doi:10.1214/aos/1032181157. Archivado desde el original el 19 de julio de 2011. 
  8. [1]
  9. Caruana, Rich; Karampatziakis, Nikos; Yessenalina, Ainur (2008). An empirical evaluation of supervised learning in high dimensions. Proceedings of the 25th International Conference on Machine Learning (ICML). 
  10. Segal, Mark R. (14 de abril de 2004). Machine Learning Benchmarks and Random Forest Regression. Center for Bioinformatics & Molecular Biostatistics. 
  11. Berthold, Michael R. (2010). Guide to Intelligent Data Analysis. Springer London. 
  12. Deng,H.; Runger, G.; Tuv, E. (2011). Bias of importance measures for multi-valued attributes and solutions. Proceedings of the 21st International Conference on Artificial Neural Networks (ICANN). pp. 293-300. 
  13. Altmann A, Tolosi L, Sander O, Lengauer T (2010). «Permutation importance:a corrected feature importance measure». Bioinformatics. doi:10.1093/bioinformatics/btq134. 
  14. Tolosi L, Lengauer T (2011). «Classification with correlated features: unreliability of feature ranking and solutions.». Bioinformatics. doi:10.1093/bioinformatics/btr300. 

Implementación Comercial

  • [2] Random Forests.

Implementaciones Open source

  • The Original RF por Breiman and Cutler. escrita en Fortran 77. GNU General Public License
  • ALGLIB contiene una modificación del algoritmo random forest en C#, C++, Pascal, VBA. GPL 2+
  • party Implementación basada en árboles de inferencia condicionales en R.
  • randomForest para clasificación y regresión en R.
  • [3] Versión en Matlab. (GNU GPL v2)
  •   Datos: Q245748
  •   Multimedia: Random forest / Q245748
  • El software SQP usa el algoritmo de random forest para predecir la calidad de presuntas de encuestas en función de las múltiples características formales y lingüísticas que ésta pueda tener.

random, forest, random, forests, también, conocidos, castellano, como, bosques, aleatorios, combinación, árboles, predictores, cada, árbol, depende, valores, vector, aleatorio, probado, independientemente, misma, distribución, para, cada, estos, modificación, . Random forest o random forests tambien conocidos en castellano como Bosques Aleatorios es una combinacion de arboles predictores tal que cada arbol depende de los valores de un vector aleatorio probado independientemente y con la misma distribucion para cada uno de estos Es una modificacion sustancial de bagging que construye una larga coleccion de arboles no correlacionados y luego los promedia 1 2 El algoritmo para inducir un random forest fue desarrollado por Leo Breiman 3 y Adele Cutler y Random forests es su marca de fabrica El termino aparece de la primera propuesta de Random decision forests hecha por Tin Kam Ho de Bell Labs en 1995 El metodo combina la idea de bagging de Breiman y la seleccion aleatoria de atributos introducida independientemente por Ho 4 5 Amit y Geman 6 para construir una coleccion de arboles de decision con variacion controlada La seleccion de un subconjunto aleatorio de atributos es un ejemplo del metodo random subspace el que segun la formulacion de Ho es una manera de llevar a cabo la discriminacion estocastica 7 propuesta por Eugenio Kleinberg En muchos problemas el rendimiento del algoritmo random forest es muy similar a la del boosting y es mas simple de entrenar y ajustar Como consecuencia el Random forest es popular y ampliamente utilizado Indice 1 Definicion de Random forests 2 Caracteristicas o rasgos y Ventajas 3 Desventajas 4 Visualizacion 5 Vease tambien 6 Referencias 7 Implementacion Comercial 8 Implementaciones Open sourceDefinicion de Random forests EditarLa idea esencial del bagging es promediar muchos modelos ruidosos pero aproximadamente imparciales y por tanto reducir la variacion Los arboles son los candidatos ideales para el bagging dado que ellos pueden registrar estructuras de interaccion compleja en los datos y si crecen suficientemente profundo tienen relativamente baja parcialidad Producto de que los arboles son notoriamente ruidosos ellos se benefician enormemente al promediar Cada arbol es construido usando el siguiente algoritmo Sea N el numero de casos de prueba M es el numero de variables en el clasificador Sea m el numero de variables de entrada a ser usado para determinar la decision en un nodo dado m debe ser mucho menor que M Elegir un conjunto de entrenamiento para este arbol y usar el resto de los casos de prueba para estimar el error Para cada nodo del arbol elegir aleatoriamente m variables en las cuales basar la decision Calcular la mejor particion del conjunto de entrenamiento a partir de las m variables Para la prediccion un nuevo caso es empujado hacia abajo por el arbol Luego se le asigna la etiqueta del nodo terminal donde termina Este proceso es iterado por todos los arboles en el ensamblado y la etiqueta que obtenga la mayor cantidad de incidencias es reportada como la prediccion Caracteristicas o rasgos y Ventajas EditarLas ventajas del random forests son 8 Ser uno de los algoritmos de aprendizaje mas certeros que hay disponible Para un set de datos lo suficientemente grande produce un clasificador muy certero 9 Correr eficientemente en bases de datos grandes Manejar cientos de variables de entrada sin excluir ninguna Dar estimaciones de que variables son importantes en la clasificacion 1 2 Tener un metodo eficaz para estimar datos perdidos y mantener la exactitud cuando una gran proporcion de los datos esta perdida Computar los prototipos que dan informacion sobre la relacion entre las variables y la clasificacion Computar las proximidades entre los pares de casos que pueden usarse en los grupos localizando valores atipicos o ascendiendo dando vistas interesantes de los datos Ofrecer un metodo experimental para detectar las interacciones de las variables Desventajas EditarSe ha observado que Random forests sobreajusta en ciertos grupos de datos con tareas de clasificacion regresion ruidosas 10 A diferencia de los arboles de decision la clasificacion hecha por random forests es dificil de interpretar 11 Para los datos que incluyen variables categoricas con diferente numero de niveles el random forests se parcializa a favor de esos atributos con mas niveles Por consiguiente la posicion que marca la variable no es fiable para este tipo de datos Metodos como las permutaciones parciales se han usado para resolver el problema 12 13 Si los datos contienen grupos de atributos correlacionados con similar relevancia para el rendimiento entonces los grupos mas pequenos estan favorecidos sobre los grupos mas grandes 14 Visualizacion Editar Datos de entrenamiento Visualizacion de Random Forest despues del entrenamiento Modelo de regresion logistica despues de entrenamiento Para formar una visualizacion intuitiva del espacio modelo representado por un random forests se creo un set de datos que consiste en 200 puntos aleatorios 100 puntos verdes y 100 puntos rojos Los puntos verdes eran obtenidos a partir de una distribucion Gaussiana con un centroide en 0 1 y los puntos rojos eran obtenidos de una distribucion de Gaussiana con un centroide en 1 0 En ambos casos la variacion era circular con un radio medio de 1 El modelo del random forest consistente de 50 arboles entrenados usando estos datos La pureza del color indica la porcion de los 50 arboles que votaron de acuerdo Un over fit sobre ajuste significativo puede ser observado en la visualizacion de Random Forest despues del entrenamiento En contraste se presenta la visualizacion de un modelo de regresion logistico menos propenso al sobre ajuste que tambien fue entrenado usando estos mismos datos Vease tambien EditarRandom multinomial logit Random naive BayesReferencias Editar a b Piryonesi S Madeh El Diraby Tamer E 2020 06 Role of Data Analytics in Infrastructure Asset Management Overcoming Data Size and Quality Problems Journal of Transportation Engineering Part B Pavements en ingles 146 2 04020022 ISSN 2573 5438 doi 10 1061 JPEODX 0000175 Consultado el 7 de agosto de 2020 a b Hastie Trevor Friedman J H Jerome H 2001 The elements of statistical learning data mining inference and prediction with 200 full color illustrations Springer ISBN 0 387 95284 5 OCLC 46809224 Consultado el 7 de agosto de 2020 Breiman Leo 2001 Random Forests Machine Learning 45 1 5 32 doi 10 1023 A 1010933404324 Ho Tin Kam 1995 Random Decision Forest Proceedings of the 3rd International Conference on Document Analysis and Recognition Montreal QC 14 16 August 1995 pp 278 282 Archivado desde el original el 4 de julio de 2008 Ho Tin Kam 1998 The Random Subspace Method for Constructing Decision Forests IEEE Transactions on Pattern Analysis and Machine Intelligence 20 8 832 844 doi 10 1109 34 709601 Archivado desde el original el 30 de septiembre de 2007 Amit Yali Geman Donald 1997 Shape quantization and recognition with randomized trees Neural Computation 9 7 1545 1588 doi 10 1162 neco 1997 9 7 1545 Archivado desde el original el 5 de febrero de 2018 Consultado el 3 de enero de 2013 Kleinberg Eugene 1996 An Overtraining Resistant Stochastic Modeling Method for Pattern Recognition Annals of Statistics 24 6 2319 2349 MR 1425956 doi 10 1214 aos 1032181157 Archivado desde el original el 19 de julio de 2011 1 Caruana Rich Karampatziakis Nikos Yessenalina Ainur 2008 An empirical evaluation of supervised learning in high dimensions Proceedings of the 25th International Conference on Machine Learning ICML Segal Mark R 14 de abril de 2004 Machine Learning Benchmarks and Random Forest Regression Center for Bioinformatics amp Molecular Biostatistics Berthold Michael R 2010 Guide to Intelligent Data Analysis Springer London Deng H Runger G Tuv E 2011 Bias of importance measures for multi valued attributes and solutions Proceedings of the 21st International Conference on Artificial Neural Networks ICANN pp 293 300 La referencia utiliza el parametro obsoleto coauthors ayuda Altmann A Tolosi L Sander O Lengauer T 2010 Permutation importance a corrected feature importance measure Bioinformatics doi 10 1093 bioinformatics btq134 Tolosi L Lengauer T 2011 Classification with correlated features unreliability of feature ranking and solutions Bioinformatics doi 10 1093 bioinformatics btr300 Implementacion Comercial Editar 2 Random Forests Implementaciones Open source EditarThe Original RF por Breiman and Cutler escrita en Fortran 77 GNU General Public License ALGLIB contiene una modificacion del algoritmo random forest en C C Pascal VBA GPL 2 party Implementacion basada en arboles de inferencia condicionales en R randomForest para clasificacion y regresion en R 3 Version en Matlab GNU GPL v2 Datos Q245748 Multimedia Random forest Q245748 El software SQP usa el algoritmo de random forest para predecir la calidad de presuntas de encuestas en funcion de las multiples caracteristicas formales y linguisticas que esta pueda tener Obtenido de https es wikipedia org w index php title Random forest amp oldid 149422778, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos