fbpx
Wikipedia

Árbol de decisión alternativo

Un Árbol de decisión alternativo es un método de clasificación proveniente del aprendizaje automático conocido en inglés como Alternating Decision Tree (ADTree).

Las estructuras de datos y los algoritmos son una generalización de los árboles de decisión. El ADTree fue introducido por Yoav Freund y Llew Mason en 1999.

Un ADTree consiste en una alternancia de nodos de decisión, que especifican una condición determinante, y predicción, que contienen un solo número.

Una instancia es clasificada por un ADTree siguiendo todos los caminos para que todos los nodos de decisión sean verdaderos, y suma algún nodo de predicción que es recorrida.

Historia

ADTrees fueron introducidos por Yoav Freund y Llew Mason. sin embargo, el algoritmo presentado tenía varios errores tipográficos. Aclaraciones y optimizaciones que fueron presentadas más tarde por Bernhard Pfahringer, Geoffrey Holmes y Richard Kirkby. Las implementaciones están disponibles en Weka y JBoost.

Motivación

Los algoritmos de impulso originales usan típicamente los tocones de decisión o los árboles de decisión como hipótesis débiles. Por ejemplo, el impulso de los tocos de decisión crea un conjunto de T, (donde T es el número de iteraciones de refuerzo), que luego votan sobre la clasificación final de acuerdo con sus pesos. Los tocones individuales de decisión se ponderan según su capacidad de clasificar los datos.

Impulsar un alumno simple resulta en un conjunto no estructurado de T hipótesis, lo que hace difícil inferir las correlaciones entre los atributos. Los árboles alternos de decisión introducen la estructura al conjunto de hipótesis al requerir que construyan una hipótesis que se produjo en una iteración anterior. El conjunto resultante de hipótesis se puede visualizar en un árbol basado en la relación entre una hipótesis y su "padre".

Otra característica importante de los algoritmos potenciados es que los datos reciben una distribución diferente en cada iteración. Las instancias que se clasifican erróneamente se dan un peso más grande mientras que las instancias exactamente clasificadas se dan el peso reducido.

Estructura de árbol de decisión alternativa

Un árbol de decisiones alternativo consta de nodos de decisión y nodos de predicción. Los nodos de decisión especifican una condición de predicado. Los nodos de predicción contienen un solo número. ADTrees siempre tienen nodos de predicción tanto como raíz y hojas. Una instancia es clasificada por un ADTree siguiendo todas las rutas para las cuales todos los nodos de decisión son verdaderos y sumando cualquier nodo de predicción que se atraviesa. Esto es diferente de árboles de clasificación binaria como CART (árbol de clasificación y regresión) o C4.5 en el que una instancia sigue solo un camino a través del árbol.

Ejemplo

El siguiente árbol fue construido usando JBoost en el conjunto de datos spambase (disponible en el UCI Machine Learning Repository). En este ejemplo, el spam se codifica como 1 y el correo electrónico regular se codifica como -1

 
Un árbol de decisión alternativo después de 6 iteraciones sobre la base de datos mostrada.

La siguiente tabla contiene parte de la información de una única instancia.

Una instancia a clasificar.

Feature Value
char_freq_bang 0.08
word_freq_hp 0.4
capital_run_length_longest 4
char_freq_dollar 0
word_freq_remove 0.9
word_freq_george 0
Other features ...

Puntuación para la instancia anterior.

Iteration 0 1 2 3 4 5 6
Instance values N/A .08 < .052 = f .4 < .195 = f 0 < .01 = t 0 < 0.005 = t N/A .9 < .225 = f
Prediction -0.093 0.74 -1.446 -0.38 0.176 0 1.66

La puntuación final de 0.657 es positiva, por lo que la instancia se clasifica como spam. La magnitud del valor es una medida de confianza en la predicción. Los autores originales enumeran tres niveles potenciales de interpretación para el conjunto de atributos identificados por un ADTree:

  1. Los nodos individuales pueden ser evaluados para su propia capacidad predictiva.
  2. Los conjuntos de nodos en la misma trayectoria pueden ser interpretados como teniendo un efecto común
  3. El árbol puede ser interpretado como un todo.

Se debe tener cuidado al interpretar nodos individuales ya que las puntuaciones reflejan una nueva ponderación de los datos en cada iteración.

Descripción del algoritmo

Las entradas del algoritmo de árbol de decisiones alternativo son:

  • Un conjunto de entradas (x 1, y1), ..., (xm, ym) donde xi es un vector de atributos yi -1 O 1. Las entradas también se llaman instancias.
  • Un conjunto de pesos wi que corresponde a cada instancia.

El elemento fundamental del algoritmo ADTree es la regla. Una sola regla consiste en una pre condición, una condición y dos puntajes. Una condición es un predicado de la forma "atributo <comparación> valor". Una pre condición es simplemente una conjunción lógica de condiciones. La evaluación de una regla implica un par de sentencias if anidadas:

  1. if(precondition)
  2. if(condition)
  3. return score_one
  4. else
  5. return score_two
  6. end if
  7. else
  8. return 0
  9. end if

El algoritmo también requiere varias funciones auxiliares:

  • W + ( c ) devuelve la suma de los pesos de todos los ejemplos marcados positivamente que satisfacen el predicado c.
  • W − ( c ) devuelve la suma de los pesos de todos los ejemplos marcados negativamente que satisfacen el predicado c.
  • W ( c ) = W + ( c ) + W − ( c ) devuelve la suma de los pesos de todos los ejemplos que satisfacen el predicado c.

El algoritmo es como sigue:

1 function ad_tree 2 input Set of m training instances 
 4 wi = 1/m for all i 
5   
 6 R0 = a rule with scores a and 0, precondition "true" and condition "true." 
 7   
 8   the set of all possible conditions 
9 for   
 10   get values that minimize   
11   
12   
 13   
14 Rj = new rule with precondition p, condition c, and weights a1 and a2 
15   
16 end for 
17 return set of Rj 

El conjunto P crece por dos pre condiciones en cada iteración, y es posible derivar la estructura de un conjunto de reglas tomando nota de la pre condición que Se utiliza en cada regla sucesiva.

Resultados empíricos

La Figura 6 del documento original demuestra que los ADTrees suelen ser tan robustos como los árboles de decisión potenciados y los tocos de decisión potenciados. Normalmente, se puede lograr una exactitud equivalente con una estructura de árbol mucho más simple que los algoritmos de partición recursiva.

Referencias

  1. Yoav Freund and Llew Mason. The Alternating Decision Tree Algorithm. Proceedings of the 16th International Conference on Machine Learning, pages 124-133 (1999)
  2. Jump up^ Bernhard Pfahringer, Geoffrey Holmes and Richard Kirkby. Optimizing the Induction of Alternating Decision Trees. Proceedings of the Fifth Pacific-Asia Conference on Advances in Knowledge Discovery and Data Mining. 2001, pp. 477-487
  3. Jump up^
  4. Jump up^ "UCI Machine Learning Repository". Ics.uci.edu. Retrieved 2012-03-16.

Enlaces externos

Véase también


  •   Datos: Q4736414

Árbol, decisión, alternativo, método, clasificación, proveniente, aprendizaje, automático, conocido, inglés, como, alternating, decision, tree, adtree, estructuras, datos, algoritmos, generalización, árboles, decisión, adtree, introducido, yoav, freund, llew, . Un Arbol de decision alternativo es un metodo de clasificacion proveniente del aprendizaje automatico conocido en ingles como Alternating Decision Tree ADTree Las estructuras de datos y los algoritmos son una generalizacion de los arboles de decision El ADTree fue introducido por Yoav Freund y Llew Mason en 1999 Un ADTree consiste en una alternancia de nodos de decision que especifican una condicion determinante y prediccion que contienen un solo numero Una instancia es clasificada por un ADTree siguiendo todos los caminos para que todos los nodos de decision sean verdaderos y suma algun nodo de prediccion que es recorrida Indice 1 Historia 2 Motivacion 3 Estructura de arbol de decision alternativa 3 1 Ejemplo 4 Descripcion del algoritmo 5 Resultados empiricos 6 Referencias 7 Enlaces externos 8 Vease tambienHistoria EditarADTrees fueron introducidos por Yoav Freund y Llew Mason sin embargo el algoritmo presentado tenia varios errores tipograficos Aclaraciones y optimizaciones que fueron presentadas mas tarde por Bernhard Pfahringer Geoffrey Holmes y Richard Kirkby Las implementaciones estan disponibles en Weka y JBoost Motivacion EditarLos algoritmos de impulso originales usan tipicamente los tocones de decision o los arboles de decision como hipotesis debiles Por ejemplo el impulso de los tocos de decision crea un conjunto de T donde T es el numero de iteraciones de refuerzo que luego votan sobre la clasificacion final de acuerdo con sus pesos Los tocones individuales de decision se ponderan segun su capacidad de clasificar los datos Impulsar un alumno simple resulta en un conjunto no estructurado de T hipotesis lo que hace dificil inferir las correlaciones entre los atributos Los arboles alternos de decision introducen la estructura al conjunto de hipotesis al requerir que construyan una hipotesis que se produjo en una iteracion anterior El conjunto resultante de hipotesis se puede visualizar en un arbol basado en la relacion entre una hipotesis y su padre Otra caracteristica importante de los algoritmos potenciados es que los datos reciben una distribucion diferente en cada iteracion Las instancias que se clasifican erroneamente se dan un peso mas grande mientras que las instancias exactamente clasificadas se dan el peso reducido Estructura de arbol de decision alternativa EditarUn arbol de decisiones alternativo consta de nodos de decision y nodos de prediccion Los nodos de decision especifican una condicion de predicado Los nodos de prediccion contienen un solo numero ADTrees siempre tienen nodos de prediccion tanto como raiz y hojas Una instancia es clasificada por un ADTree siguiendo todas las rutas para las cuales todos los nodos de decision son verdaderos y sumando cualquier nodo de prediccion que se atraviesa Esto es diferente de arboles de clasificacion binaria como CART arbol de clasificacion y regresion o C4 5 en el que una instancia sigue solo un camino a traves del arbol Ejemplo Editar El siguiente arbol fue construido usando JBoost en el conjunto de datos spambase disponible en el UCI Machine Learning Repository En este ejemplo el spam se codifica como 1 y el correo electronico regular se codifica como 1 Un arbol de decision alternativo despues de 6 iteraciones sobre la base de datos mostrada La siguiente tabla contiene parte de la informacion de una unica instancia Una instancia a clasificar Feature Valuechar freq bang 0 08word freq hp 0 4capital run length longest 4char freq dollar 0word freq remove 0 9word freq george 0Other features Puntuacion para la instancia anterior Iteration 0 1 2 3 4 5 6Instance values N A 08 lt 052 f 4 lt 195 f 0 lt 01 t 0 lt 0 005 t N A 9 lt 225 fPrediction 0 093 0 74 1 446 0 38 0 176 0 1 66La puntuacion final de 0 657 es positiva por lo que la instancia se clasifica como spam La magnitud del valor es una medida de confianza en la prediccion Los autores originales enumeran tres niveles potenciales de interpretacion para el conjunto de atributos identificados por un ADTree Los nodos individuales pueden ser evaluados para su propia capacidad predictiva Los conjuntos de nodos en la misma trayectoria pueden ser interpretados como teniendo un efecto comun El arbol puede ser interpretado como un todo Se debe tener cuidado al interpretar nodos individuales ya que las puntuaciones reflejan una nueva ponderacion de los datos en cada iteracion Descripcion del algoritmo EditarLas entradas del algoritmo de arbol de decisiones alternativo son Un conjunto de entradas x 1 y1 xm ym donde xi es un vector de atributos yi 1 O 1 Las entradas tambien se llaman instancias Un conjunto de pesos wi que corresponde a cada instancia El elemento fundamental del algoritmo ADTree es la regla Una sola regla consiste en una pre condicion una condicion y dos puntajes Una condicion es un predicado de la forma atributo lt comparacion gt valor Una pre condicion es simplemente una conjuncion logica de condiciones La evaluacion de una regla implica un par de sentencias if anidadas if precondition if condition return score one else return score two end if else return 0 end ifEl algoritmo tambien requiere varias funciones auxiliares W c devuelve la suma de los pesos de todos los ejemplos marcados positivamente que satisfacen el predicado c W c devuelve la suma de los pesos de todos los ejemplos marcados negativamente que satisfacen el predicado c W c W c W c devuelve la suma de los pesos de todos los ejemplos que satisfacen el predicado c El algoritmo es como sigue 1 function ad tree 2 input Set of m training instances 4 wi 1 m for all i 5 a 1 2 ln W t r u e W t r u e displaystyle a frac 1 2 textrm ln frac W true W true 6 R0 a rule with scores a and 0 precondition true and condition true 7 P t r u e displaystyle mathcal P true 8 C displaystyle mathcal C the set of all possible conditions 9 for j 1 T displaystyle j 1 dots T 10 p P c C displaystyle p in mathcal P c in mathcal C get values that minimize z 2 W p c W p c W p c W p c W p displaystyle z 2 left sqrt W p wedge c W p wedge c sqrt W p wedge neg c W p wedge neg c right W neg p 11 P p c p c displaystyle mathcal P p wedge c p wedge neg c 12 a 1 1 2 ln W p c 1 W p c 1 displaystyle a 1 frac 1 2 textrm ln frac W p wedge c 1 W p wedge c 1 13 a 2 1 2 ln W p c 1 W p c 1 displaystyle a 2 frac 1 2 textrm ln frac W p wedge neg c 1 W p wedge neg c 1 14 Rj new rule with precondition p condition c and weights a1 and a2 15 w i w i e y i R j x i displaystyle w i w i e y i R j x i 16 end for 17 return set of Rj El conjunto P crece por dos pre condiciones en cada iteracion y es posible derivar la estructura de un conjunto de reglas tomando nota de la pre condicion que Se utiliza en cada regla sucesiva Resultados empiricos EditarLa Figura 6 del documento original demuestra que los ADTrees suelen ser tan robustos como los arboles de decision potenciados y los tocos de decision potenciados Normalmente se puede lograr una exactitud equivalente con una estructura de arbol mucho mas simple que los algoritmos de particion recursiva Referencias EditarYoav Freund and Llew Mason The Alternating Decision Tree Algorithm Proceedings of the 16th International Conference on Machine Learning pages 124 133 1999 Jump up Bernhard Pfahringer Geoffrey Holmes and Richard Kirkby Optimizing the Induction of Alternating Decision Trees Proceedings of the Fifth Pacific Asia Conference on Advances in Knowledge Discovery and Data Mining 2001 pp 477 487 Jump up Jump up UCI Machine Learning Repository Ics uci edu Retrieved 2012 03 16 Enlaces externos EditarAn introduction to Boosting and ADTrees Has many graphical examples of alternating decision trees in practice JBoost software implementing ADTrees http perun pmf uns ac rs radovanovic dmsem cd install Weka doc classifiers papers trees ADTree atrees pdfVease tambien EditarArbol de decision Aprendizaje basado en arboles de decision Datos Q4736414Obtenido de https es wikipedia org w index php title Arbol de decision alternativo amp oldid 121659056, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos