fbpx
Wikipedia

Reglas de asociación

En minería de datos y aprendizaje automático, las reglas de asociación se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.[1]​ Se han investigado ampliamente diversos métodos para aprendizaje de reglas de asociación que han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos.

Piatetsky-Shapiro[2]​ describe el análisis y la presentación de reglas 'fuertes' descubiertas en bases de datos utilizando diferentes medidas de interés. Basado en el concepto de regla fuerte, Agrawal et al.[3]​ presentaron un trabajo en el que indicaban las reglas de asociación que descubrían las relaciones entre los datos recopilados a gran escala en los sistemas de terminales de punto de venta de unos supermercados. Por ejemplo, la siguiente regla:



Encontrada en los datos de ventas de un supermercado, indicaría que un consumidor que compra cebollas y verdura a la vez, es probable que compre también carne. Esta información se puede utilizar como base para tomar decisiones sobre marketing como precios promocionales para ciertos productos o dónde ubicar estos dentro del supermercado. Además del ejemplo anterior aplicado al análisis de la cesta de la compra, hoy en día, las reglas de asociación también son de aplicación en otras muchas áreas como el web mining, la detección de intrusos o la bioinformática.

Definición del problema

Según la definición original de Agrawal et al[3]​ el problema de minería de reglas de asociación se define como:

  • Sea   un conjunto de   atributos binarios llamados items.
  • Sea   un conjunto de transacciones almacenadas en una base de datos.

Cada transacción en   tiene un ID (identificador) único y contiene un subconjunto de items de  . Una regla se define como una implicación de la forma:

 

Donde:

  y
 

Los conjuntos de items   y   se denominan respectivamente "antecedente" (o parte izquierda) y "consecuente" (o parte derecha) de la regla.

Ejemplo práctico

Ejemplo:
Base de datos con 4 items y 5 transacciones
ID Leche Pan Mantequilla Cerveza
1 1 1 0 0
2 0 1 1 0
3 0 0 0 1
4 1 1 1 0
5 0 1 0 0

Para ilustrar estos conceptos véase el siguiente ejemplo sobre ventas en un supermercado. El conjunto de items es:

 

A la derecha se muestra una pequeña base de datos que contiene los items, donde el código '1' se interpreta como que el producto (item) correspondiente está presente en la transacción y el código '0' significa que dicho producto no está presente. Un ejemplo de regla para el supermercado podría ser:

 

Significaría que si el cliente compró 'leche' y 'pan' también compró 'mantequilla', es decir, según la especificación formal anterior se tendría que:

 
 

Reglas significativas, 'soporte' y 'confianza'

Nótese que el ejemplo anterior es muy pequeño, en la práctica, una regla necesita un soporte de varios cientos de registros (transacciones) antes de que ésta pueda considerarse significativa desde un punto de vista estadístico. A menudo las bases de datos contienen miles o incluso millones de registros.

Para seleccionar reglas interesantes del conjunto de todas las reglas posibles que se pueden derivar de un conjunto de datos se pueden utilizar restricciones sobre diversas medidas de "significancia" e "interés". Las restricciones más conocidas son los umbrales mínimos de "soporte" y "confianza".

El 'soporte' de un conjunto de items   en una base de datos   se define como la proporción de transacciones en la base de datos que contiene dicho conjunto de items:

 

En el ejemplo anterior el conjunto   tiene un soporte de;

 

Es decir, el soporte es del 40% (2 de cada 5 transacciones).

La 'confianza' de una regla se define como:

 

Por ejemplo, para la regla:

 

La confianza sería:

 

Este cálculo significa que el 50% de las reglas de la base de datos que contienen 'leche' y 'pan' en el antecedente también tienen 'mantequilla' en el consecuente; en otras palabras, que la regla:

 

Es cierta en el 50% de los casos.

La confianza puede interpretarse como un estimador de  , la probabilidad de encontrar la parte derecha de una regla condicionada a que se encuentre también la parte izquierda.[4]

Las reglas de asociación deben satisfacer las especificaciones del usuario en cuanto a umbrales mínimos de soporte y confianza. Para conseguir esto el proceso de generación de reglas de asociación se realiza en dos pasos. Primero se aplica el soporte mínimo para encontrar los conjuntos de items más frecuentes en la base de datos. En segundo lugar se forman las reglas partiendo de estos conjuntos frecuentes de items y de la restricción de confianza mínima.

Encontrar todos los subconjuntos frecuentes de la base de datos es difícil ya que esto implica considerar todos los posibles subconjuntos de items (combinaciones de items). El conjunto de posibles conjuntos de items es el conjunto potencia de   y su tamaño es de   (excluyendo el conjunto vacío que no es válido como conjunto de items). Aunque el tamaño del conjunto potencia crece exponencialmente con el número de items   de  , es posible hacer una búsqueda eficiente utilizando la propiedad "downward-closure" del soporte[3]​ (también llamada anti-monótona[5]​) que garantiza que para un conjunto de items frecuente, todos sus subconjuntos también son frecuentes, y del mismo modo, para un conjunto de items infrecuente, todos sus superconjuntos deben ser infrecuentes. Explotando esta propiedad se han diseñado algoritmos eficientes (por ejemplo: Apriori[6]​ y Eclat[7]​) para encontrar los items frecuentes.

Mejora de la confianza: "Lift" (, 2)

El indicador lift expresa cuál es la proporción del soporte observado de un conjunto de productos respecto del soporte teórico de ese conjunto dado el supuesto de independencia. Un valor de lift = 1 indica que ese conjunto aparece una cantidad de veces acorde a lo esperado bajo condiciones de independencia. Un valor de lift > 1 indica que ese conjunto aparece una cantidad de veces superior a lo esperado bajo condiciones de independencia (por lo que se puede intuir que existe una relación que hace que los productos se encuentren en el conjunto más veces de lo normal). Un valor de lift < 1 indica que ese conjunto aparece una cantidad de veces inferior a lo esperado bajo condiciones de independencia (por lo que se puede intuir que existe una relación que hace que los productos no estén formando parte del mismo conjunto más veces de lo normal).

Algoritmos

Existen diversos algoritmos que realizan búsquedas de reglas de asociación bases de datos.

Referencias

  1. T. Menzies, Y. Hu. Data Mining For Busy People. IEEE Computer, Outubro de 2003, pgs. 18-25.
  2. Piatetsky-Shapiro, G. (1991), Discovery, analysis, and presentation of strong rules, in G. Piatetsky-Shapiro & W. J. Frawley, eds, ‘Knowledge Discovery in Databases’, AAAI/MIT Press, Cambridge, MA.
  3. R. Agrawal; T. Imielinski; A. Swami: Mining Association Rules Between Sets of Items in Large Databases", SIGMOD Conference 1993: 207-216
  4. Jochen Hipp, Ulrich Güntzer, and Gholamreza Nakhaeizadeh. Algorithms for association rule mining - A general survey and comparison. SIGKDD Explorations, 2(2):1-58, 2000.
  5. Jian Pei, Jiawei Han, and Laks V.S. Lakshmanan. Mining frequent itemsets with convertible constraints. In Proceedings of the 17th International Conference on Data Engineering, April 2-6, 2001, Heidelberg, Germany, pages 433-442, 2001.
  6. Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases. In Jorge B. Bocca, Matthias Jarke, and Carlo Zaniolo, editors, Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, pages 487-499, Santiago, Chile, September 1994.
  7. Mohammed J. Zaki. Scalable algorithms for association mining. IEEE Transactions on Knowledge and Data Engineering, 12(3):372-390, May/June 2000.

Véase también

Enlaces externos

Bibliografía

  • Extensive Bibliography on Association Rules by J.M. Luna
  • Annotated Bibliography on Association Rules by M. Hahsler

Implementaciones

  • Implementaciones Java de algoritmos de asociación
  • arules, paquete para minería de reglas de asociación con R.
  • Implementaciones en C de los algoritmos Apriori y Eclat
  • FIMI (Frequent Itemset Mining Implementations Repository)
  • Frequent pattern mining implementations from Bart Goethals
  • Weka, colección de algoritmos para tareas de minería de datos implementados en Java.
  • Software de minería de datos deMohammed J. Zaki

Enlaces

  • Detalles sobre reglas de asociaciones (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última). by abc
  •   Datos: Q386780

reglas, asociación, minería, datos, aprendizaje, automático, reglas, asociación, utilizan, para, descubrir, hechos, ocurren, común, dentro, determinado, conjunto, datos, investigado, ampliamente, diversos, métodos, para, aprendizaje, reglas, asociación, result. En mineria de datos y aprendizaje automatico las reglas de asociacion se utilizan para descubrir hechos que ocurren en comun dentro de un determinado conjunto de datos 1 Se han investigado ampliamente diversos metodos para aprendizaje de reglas de asociacion que han resultado ser muy interesantes para descubrir relaciones entre variables en grandes conjuntos de datos Piatetsky Shapiro 2 describe el analisis y la presentacion de reglas fuertes descubiertas en bases de datos utilizando diferentes medidas de interes Basado en el concepto de regla fuerte Agrawal et al 3 presentaron un trabajo en el que indicaban las reglas de asociacion que descubrian las relaciones entre los datos recopilados a gran escala en los sistemas de terminales de punto de venta de unos supermercados Por ejemplo la siguiente regla c e b o l l a s v e g e t a l e s c a r n e displaystyle cebollas vegetales Rightarrow carne Encontrada en los datos de ventas de un supermercado indicaria que un consumidor que compra cebollas y verdura a la vez es probable que compre tambien carne Esta informacion se puede utilizar como base para tomar decisiones sobre marketing como precios promocionales para ciertos productos o donde ubicar estos dentro del supermercado Ademas del ejemplo anterior aplicado al analisis de la cesta de la compra hoy en dia las reglas de asociacion tambien son de aplicacion en otras muchas areas como el web mining la deteccion de intrusos o la bioinformatica Indice 1 Definicion del problema 1 1 Ejemplo practico 1 2 Reglas significativas soporte y confianza 1 3 Mejora de la confianza Lift 1 2 2 Algoritmos 3 Referencias 4 Vease tambien 5 Enlaces externos 5 1 Bibliografia 5 2 Implementaciones 5 3 EnlacesDefinicion del problema EditarSegun la definicion original de Agrawal et al 3 el problema de mineria de reglas de asociacion se define como Sea I i 1 i 2 i n displaystyle I i 1 i 2 ldots i n un conjunto de n displaystyle n atributos binarios llamados items Sea D t 1 t 2 t m displaystyle D t 1 t 2 ldots t m un conjunto de transacciones almacenadas en una base de datos Cada transaccion en D displaystyle D tiene un ID identificador unico y contiene un subconjunto de items de I displaystyle I Una regla se define como una implicacion de la forma X Y displaystyle X Rightarrow Y Donde X Y I displaystyle X Y subseteq I y X Y displaystyle X cap Y emptyset Los conjuntos de items X displaystyle X y Y displaystyle Y se denominan respectivamente antecedente o parte izquierda y consecuente o parte derecha de la regla Ejemplo practico Editar Ejemplo Base de datos con 4 items y 5 transacciones ID Leche Pan Mantequilla Cerveza1 1 1 0 02 0 1 1 03 0 0 0 14 1 1 1 05 0 1 0 0Para ilustrar estos conceptos vease el siguiente ejemplo sobre ventas en un supermercado El conjunto de items es I L e c h e P a n M a n t e q u i l l a C e r v e z a displaystyle I mathrm Leche Pan Mantequilla Cerveza A la derecha se muestra una pequena base de datos que contiene los items donde el codigo 1 se interpreta como que el producto item correspondiente esta presente en la transaccion y el codigo 0 significa que dicho producto no esta presente Un ejemplo de regla para el supermercado podria ser L e c h e P a n M a n t e q u i l l a displaystyle mathrm Leche Pan Rightarrow mathrm Mantequilla Significaria que si el cliente compro leche y pan tambien compro mantequilla es decir segun la especificacion formal anterior se tendria que X L e c h e P a n displaystyle X mathrm Leche Pan Y M a n t e q u i l l a displaystyle Y mathrm Mantequilla Reglas significativas soporte y confianza Editar Notese que el ejemplo anterior es muy pequeno en la practica una regla necesita un soporte de varios cientos de registros transacciones antes de que esta pueda considerarse significativa desde un punto de vista estadistico A menudo las bases de datos contienen miles o incluso millones de registros Para seleccionar reglas interesantes del conjunto de todas las reglas posibles que se pueden derivar de un conjunto de datos se pueden utilizar restricciones sobre diversas medidas de significancia e interes Las restricciones mas conocidas son los umbrales minimos de soporte y confianza El soporte de un conjunto de items X displaystyle X en una base de datos D displaystyle D se define como la proporcion de transacciones en la base de datos que contiene dicho conjunto de items s o p X X D displaystyle mathrm sop X frac left X right vert left D right vert En el ejemplo anterior el conjunto L e c h e P a n displaystyle mathrm Leche Pan tiene un soporte de s o p X 2 5 0 4 displaystyle mathrm sop X frac 2 5 0 4 Es decir el soporte es del 40 2 de cada 5 transacciones La confianza de una regla se define como c o n f X Y s o p X Y s o p X X Y X displaystyle mathrm conf X Rightarrow Y frac mathrm sop X cup Y mathrm sop X frac left X cup Y right vert left X right vert Por ejemplo para la regla L e c h e P a n M a n t e q u i l l a displaystyle mathrm Leche Pan Rightarrow mathrm Mantequilla La confianza seria c o n f L e c h e P a n M a n t e q u i l l a s o p L e c h e P a n M a n t e q u i l l a s o p L e c h e P a n 0 2 0 4 0 5 displaystyle mathrm conf mathrm Leche Pan Rightarrow mathrm Mantequilla frac mathrm sop mathrm Leche Pan cup mathrm Mantequilla mathrm sop mathrm Leche Pan frac 0 2 0 4 0 5 Este calculo significa que el 50 de las reglas de la base de datos que contienen leche y pan en el antecedente tambien tienen mantequilla en el consecuente en otras palabras que la regla L e c h e P a n M a n t e q u i l l a displaystyle mathrm Leche Pan Rightarrow mathrm Mantequilla Es cierta en el 50 de los casos La confianza puede interpretarse como un estimador de P Y X displaystyle P Y X la probabilidad de encontrar la parte derecha de una regla condicionada a que se encuentre tambien la parte izquierda 4 Las reglas de asociacion deben satisfacer las especificaciones del usuario en cuanto a umbrales minimos de soporte y confianza Para conseguir esto el proceso de generacion de reglas de asociacion se realiza en dos pasos Primero se aplica el soporte minimo para encontrar los conjuntos de items mas frecuentes en la base de datos En segundo lugar se forman las reglas partiendo de estos conjuntos frecuentes de items y de la restriccion de confianza minima Encontrar todos los subconjuntos frecuentes de la base de datos es dificil ya que esto implica considerar todos los posibles subconjuntos de items combinaciones de items El conjunto de posibles conjuntos de items es el conjunto potencia de I displaystyle I y su tamano es de 2 n 1 displaystyle 2 n 1 excluyendo el conjunto vacio que no es valido como conjunto de items Aunque el tamano del conjunto potencia crece exponencialmente con el numero de items n displaystyle n de I displaystyle I es posible hacer una busqueda eficiente utilizando la propiedad downward closure del soporte 3 tambien llamada anti monotona 5 que garantiza que para un conjunto de items frecuente todos sus subconjuntos tambien son frecuentes y del mismo modo para un conjunto de items infrecuente todos sus superconjuntos deben ser infrecuentes Explotando esta propiedad se han disenado algoritmos eficientes por ejemplo Apriori 6 y Eclat 7 para encontrar los items frecuentes Mejora de la confianza Lift 1 2 Editar El indicador lift expresa cual es la proporcion del soporte observado de un conjunto de productos respecto del soporte teorico de ese conjunto dado el supuesto de independencia Un valor de lift 1 indica que ese conjunto aparece una cantidad de veces acorde a lo esperado bajo condiciones de independencia Un valor de lift gt 1 indica que ese conjunto aparece una cantidad de veces superior a lo esperado bajo condiciones de independencia por lo que se puede intuir que existe una relacion que hace que los productos se encuentren en el conjunto mas veces de lo normal Un valor de lift lt 1 indica que ese conjunto aparece una cantidad de veces inferior a lo esperado bajo condiciones de independencia por lo que se puede intuir que existe una relacion que hace que los productos no esten formando parte del mismo conjunto mas veces de lo normal Algoritmos EditarExisten diversos algoritmos que realizan busquedas de reglas de asociacion bases de datos Apriori Partition EclatReferencias Editar T Menzies Y Hu Data Mining For Busy People IEEE Computer Outubro de 2003 pgs 18 25 Piatetsky Shapiro G 1991 Discovery analysis and presentation of strong rules in G Piatetsky Shapiro amp W J Frawley eds Knowledge Discovery in Databases AAAI MIT Press Cambridge MA a b c R Agrawal T Imielinski A Swami Mining Association Rules Between Sets of Items in Large Databases SIGMOD Conference 1993 207 216 Jochen Hipp Ulrich Guntzer and Gholamreza Nakhaeizadeh Algorithms for association rule mining A general survey and comparison SIGKDD Explorations 2 2 1 58 2000 Jian Pei Jiawei Han and Laks V S Lakshmanan Mining frequent itemsets with convertible constraints In Proceedings of the 17th International Conference on Data Engineering April 2 6 2001 Heidelberg Germany pages 433 442 2001 Rakesh Agrawal and Ramakrishnan Srikant Fast algorithms for mining association rules in large databases In Jorge B Bocca Matthias Jarke and Carlo Zaniolo editors Proceedings of the 20th International Conference on Very Large Data Bases VLDB pages 487 499 Santiago Chile September 1994 Mohammed J Zaki Scalable algorithms for association mining IEEE Transactions on Knowledge and Data Engineering 12 3 372 390 May June 2000 Vease tambien EditarMineria de datos Aprendizaje automatico WEKA Iconografia de las correlacionesEnlaces externos EditarBibliografia Editar Extensive Bibliography on Association Rules by J M Luna Annotated Bibliography on Association Rules by M HahslerImplementaciones Editar Implementaciones Java de algoritmos de asociacion arules paquete para mineria de reglas de asociacion con R Implementaciones en C de los algoritmos Apriori y Eclat FIMI Frequent Itemset Mining Implementations Repository Frequent pattern mining implementations from Bart Goethals Weka coleccion de algoritmos para tareas de mineria de datos implementados en Java Software de mineria de datos deMohammed J ZakiEnlaces Editar Detalles sobre reglas de asociaciones enlace roto disponible en Internet Archive vease el historial la primera version y la ultima by abc Datos Q386780 Obtenido de https es wikipedia org w index php title Reglas de asociacion amp oldid 126273483, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos