fbpx
Wikipedia

C4.5

C4.5 es un algoritmo usado para generar un árbol de decisión desarrollado por Ross Quinlan.[1]​ C4.5 es una extensión del algoritmo ID3 desarrollado anteriormente por Quinlan. Los árboles de decisión generados por C4.5 pueden ser usados para clasificación, y por esta razón, C4.5 está casi siempre referido como un clasificador estadístico.

Algoritmo

C4.5 construye árboles de decisión desde un grupo de datos de entrenamiento de la misma forma en que lo hace ID3, usando el concepto de entropía de información. Los datos de entrenamiento son un grupo   de ejemplos ya clasificados. Cada ejemplo   es un vector donde   representan los atributos o características del ejemplo. Los datos de entrenamiento son aumentados con un vector   donde   representan la clase a la que pertenece cada muestra.

En cada nodo del árbol, C4.5 elige un atributo de los datos que más eficazmente dividen el conjunto de muestras en subconjuntos enriquecidos en una clase u otra. Su criterio es el normalizado para ganancia de información (diferencia de entropía) que resulta en la elección de un atributo para dividir los datos. El atributo con la mayor ganancia de información normalizada se elige como parámetro de decisión. El algoritmo C4.5 divide recursivamente en sublistas más pequeñas.

Este algoritmo tiene unos pocos casos base.

  • Todas las muestras en la lista pertenecen a la misma clase. Cuando esto sucede, simplemente crea un nodo de hoja para el árbol de decisión diciendo que elija esa clase.
  • Ninguna de las características proporciona ninguna ganancia de información. En este caso, C4.5 crea un nodo de decisión más arriba del árbol utilizando el valor esperado de la clase.
  • Instancia de la clase previamente no vista encontrada. Una vez más, C4.5 crea un nodo de decisión más arriba en el árbol con el valor esperado.

Pseudocódigo

En pseudocódigo, el algoritmo general para construir árboles de decisión es:[2]

  1. Comprobar los casos base
  2. Para cada atributo a
    1. Encontrar la ganancia de información normalizada de la división de a
  3. Dejar que a_best sea el atributo con la ganancia de información normalizada más alta
  4. Crear un nodo de decisión que divida a_best
  5. Repetir en las sublistas obtenidas por división de a_best, y agregar estos nodos como hijos de nodo

Implementaciones

J48 es una implementación open source en lenguaje de programación Java del algoritmo C4.5 en la herramienta weka de minería de datos.

Mejoras respecto al algoritmo ID3

En C4.5 se hicieron un número de mejoras a ID3. Algunas de ellas son:

  • Manejo de ambos atributos continuos y discretos - A fin de manejar atributos continuos, C4.5 crea un umbral y luego se divide la lista en aquellos cuyo valor de atributo es superior al umbral y los que son menores o iguales a él.[3]
  • Manejo de los datos de formación con valores de atributos faltantes - C4.5 permite valores de los atributos para ser marcado como? para faltantes. Los valores faltantes de los atributos simplemente no se usa en los cálculos de la ganancia y la entropía.
  • Manejo de atributos con costos diferentes.
  • Podando árboles después de la creación - C4.5 se remonta a través del árbol una vez que ha sido creado e intenta eliminar las ramas que no ayudan, reemplazándolos con los nodos de hoja.

Mejoras en Algoritmo C5.0/See5

Quinlan continuó con la creación del C5.0 y el See5 (C5.0 para Unix / Linux, See5 para Windows) con fines comerciales. C5.0 ofrece una serie de mejoras en el C4.5. Algunas de estas son:[4]

  • Velocidad - C5.0 es significativamente más rápido que el C4.5 (varios órdenes de magnitud)
  • El uso de memoria - C5.0 es más eficiente que el C4.5
  • Árboles de decisión más pequeños - C5.0 obtiene resultados similares a C4.5 con árboles de decisión mucho más pequeños.
  • Soporte para boosting - Boosting mejora los árboles y les da una mayor precisión.
  • Ponderación - C5.0 le permite ponderar los distintos casos y tipos de errores de clasificación.
  • Winnowing - una opción automática de C5.0 consiste en aplicar un algoritmo de clasificación (algoritmo Winnow) a los atributos para eliminar aquellos que sean de poca ayuda.

Los Fuentes de una versión para Linux de un único subproceso de C5.0 están disponibles bajo licencia GPL. También se encuentra disponible una implementación del algoritmo en R

Véase también

Referencias

  1. Quinlan, J. R. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.
  2. S.B. Kotsiantis, Supervised Machine Learning: A Review of Classification Techniques, Informática 31(2007) 249-268, 2007
  3. J. R. Quinlan. Improved use of continuous attributes in c4.5. Journal of Artificial Intelligence Research, 4:77-90, 1996.
  4. Is See5/C5.0 Better Than C4.5?

Enlaces externos

  • Implementación original en la web de Ross Quinlan: http://www.rulequest.com/Personal/
  • See5 and C5.0


  •   Datos: Q1022655

algoritmo, usado, para, generar, árbol, decisión, desarrollado, ross, quinlan, extensión, algoritmo, desarrollado, anteriormente, quinlan, árboles, decisión, generados, pueden, usados, para, clasificación, esta, razón, está, casi, siempre, referido, como, clas. C4 5 es un algoritmo usado para generar un arbol de decision desarrollado por Ross Quinlan 1 C4 5 es una extension del algoritmo ID3 desarrollado anteriormente por Quinlan Los arboles de decision generados por C4 5 pueden ser usados para clasificacion y por esta razon C4 5 esta casi siempre referido como un clasificador estadistico Indice 1 Algoritmo 1 1 Pseudocodigo 2 Implementaciones 3 Mejoras respecto al algoritmo ID3 4 Mejoras en Algoritmo C5 0 See5 5 Vease tambien 6 Referencias 7 Enlaces externosAlgoritmo EditarC4 5 construye arboles de decision desde un grupo de datos de entrenamiento de la misma forma en que lo hace ID3 usando el concepto de entropia de informacion Los datos de entrenamiento son un grupo S s 1 s 2 displaystyle S s 1 s 2 de ejemplos ya clasificados Cada ejemplo s i x 1 x 2 displaystyle s i x 1 x 2 es un vector donde x 1 x 2 displaystyle x 1 x 2 representan los atributos o caracteristicas del ejemplo Los datos de entrenamiento son aumentados con un vector C c 1 c 2 displaystyle C c 1 c 2 donde c 1 c 2 displaystyle c 1 c 2 representan la clase a la que pertenece cada muestra En cada nodo del arbol C4 5 elige un atributo de los datos que mas eficazmente dividen el conjunto de muestras en subconjuntos enriquecidos en una clase u otra Su criterio es el normalizado para ganancia de informacion diferencia de entropia que resulta en la eleccion de un atributo para dividir los datos El atributo con la mayor ganancia de informacion normalizada se elige como parametro de decision El algoritmo C4 5 divide recursivamente en sublistas mas pequenas Este algoritmo tiene unos pocos casos base Todas las muestras en la lista pertenecen a la misma clase Cuando esto sucede simplemente crea un nodo de hoja para el arbol de decision diciendo que elija esa clase Ninguna de las caracteristicas proporciona ninguna ganancia de informacion En este caso C4 5 crea un nodo de decision mas arriba del arbol utilizando el valor esperado de la clase Instancia de la clase previamente no vista encontrada Una vez mas C4 5 crea un nodo de decision mas arriba en el arbol con el valor esperado Pseudocodigo Editar En pseudocodigo el algoritmo general para construir arboles de decision es 2 Comprobar los casos base Para cada atributo a Encontrar la ganancia de informacion normalizada de la division de a Dejar que a best sea el atributo con la ganancia de informacion normalizada mas alta Crear un nodo de decision que divida a best Repetir en las sublistas obtenidas por division de a best y agregar estos nodos como hijos de nodoImplementaciones EditarJ48 es una implementacion open source en lenguaje de programacion Java del algoritmo C4 5 en la herramienta weka de mineria de datos Mejoras respecto al algoritmo ID3 EditarEn C4 5 se hicieron un numero de mejoras a ID3 Algunas de ellas son Manejo de ambos atributos continuos y discretos A fin de manejar atributos continuos C4 5 crea un umbral y luego se divide la lista en aquellos cuyo valor de atributo es superior al umbral y los que son menores o iguales a el 3 Manejo de los datos de formacion con valores de atributos faltantes C4 5 permite valores de los atributos para ser marcado como para faltantes Los valores faltantes de los atributos simplemente no se usa en los calculos de la ganancia y la entropia Manejo de atributos con costos diferentes Podando arboles despues de la creacion C4 5 se remonta a traves del arbol una vez que ha sido creado e intenta eliminar las ramas que no ayudan reemplazandolos con los nodos de hoja Mejoras en Algoritmo C5 0 See5 EditarQuinlan continuo con la creacion del C5 0 y el See5 C5 0 para Unix Linux See5 para Windows con fines comerciales C5 0 ofrece una serie de mejoras en el C4 5 Algunas de estas son 4 Velocidad C5 0 es significativamente mas rapido que el C4 5 varios ordenes de magnitud El uso de memoria C5 0 es mas eficiente que el C4 5 Arboles de decision mas pequenos C5 0 obtiene resultados similares a C4 5 con arboles de decision mucho mas pequenos Soporte para boosting Boosting mejora los arboles y les da una mayor precision Ponderacion C5 0 le permite ponderar los distintos casos y tipos de errores de clasificacion Winnowing una opcion automatica de C5 0 consiste en aplicar un algoritmo de clasificacion algoritmo Winnow a los atributos para eliminar aquellos que sean de poca ayuda Los Fuentes de una version para Linux de un unico subproceso de C5 0 estan disponibles bajo licencia GPL Tambien se encuentra disponible una implementacion del algoritmo en RVease tambien EditarAlgoritmo ID3Referencias Editar Quinlan J R C4 5 Programs for Machine Learning Morgan Kaufmann Publishers 1993 S B Kotsiantis Supervised Machine Learning A Review of Classification Techniques Informatica 31 2007 249 268 2007 J R Quinlan Improved use of continuous attributes in c4 5 Journal of Artificial Intelligence Research 4 77 90 1996 Is See5 C5 0 Better Than C4 5 Enlaces externos EditarImplementacion original en la web de Ross Quinlan http www rulequest com Personal See5 and C5 0 Datos Q1022655Obtenido de https es wikipedia org w index php title C4 5 amp oldid 134146994, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos