fbpx
Wikipedia

Filtrado bayesiano de spam

Los clasificadores Naive Bayes son populares estadísticas técnicas de filtrado de email. Se suelen utilizar un conjunto de palabras características para identificar los correos basura, un enfoque común en la clasificación de textos.

Los clasificadores Naive Bayes trabajan correlacionandos a el uso de tokens (por lo general palabras o algunas veces otras cosas), con mensajes de correos electrónicos que no son correo basura y otros que sí lo son. Utilizando luego el Teorema de Bayes para calcular la probabilidad de que un correo electrónico es o no es correo basura.

El filtrado de correo basura bayesiano es una técnica de línea de base para tratar con el correo basura, se puede adaptar a las necesidades de correo electrónico de los usuarios individuales y dar pocos índices de falsos positivos en la detección de correo basura, que son generalmente aceptables para los usuarios. Es una de las formas más antiguas de hacer filtrado de correo basura, con raíces en la década de 1990.

Historia editar

El primer programa de filtrado de correo conocido por utilizar un clasificador de Naive Bayes era el programa iFile de Jason Rennie, lanzado en 1996. El programa fue utilizado para ordenar el correo dentro de las carpetas.[1]​ La primera publicación académica sobre filtro bayesiano fue por Sahami et al. en 1998.[2]​ Ese trabajo se desplegó poco después en filtros comerciales de correo basura. [cita requerida] Sin embargo, en 2002 Paul Graham disminuyó en gran medida la tasa de falsos positivos, por lo que podría ser utilizado por sí mismo como un solo filtro de correo basura.[3][4]

Las variantes de la técnica básica se han aplicado en una serie de trabajos de investigación y de software comerciales de productos.[5]​ Muchos clientes de correo modernos tienen implementado el filtrado de correo basura bayesiano. Los usuarios también pueden instalar diferentes programas de filtrado para email. Por parte de los servidores existen filtros de correo electrónico tales como: CRM114, correo basura, correo basuraAssassin,[6]​ correo basuraBayes,[7]​ Bogofilter and Anti-correo basura SMTP Proxy, que hacen uso de técnicas de filtrado de correo basura bayesiano, y la funcionalidad es a veces embebida dentro del servidor de correo del propio software.

Proceso editar

Palabras particulares tienen determinadas probabilidades de ocurrir en el correo electrónico, correo basura y en el correo electrónico legítimo. Por ejemplo, la mayoría de los usuarios de correo electrónico con frecuencia se encontrará con la palabra "Viagra" en el correo electrónico, correo basura, pero rara vez verlo en otro correo electrónico. El filtro no sabe estas probabilidades de antemano, y debe primero ser entrenado para que pueda aprender. Para entrenar el filtro, el usuario debe indicar manualmente si un nuevo correo electrónico es correo basura o no. Las palabras de los correos entrantes serán guardadas en la base de datos del filtro con una probabilidad que será ajustada según su aparición o no en el correo de correo basura. Por ejemplo, los filtros bayesianos de correo basura normalmente habrán aprendido una muy alta probabilidad de correo basura para las palabras "Viagra" y "refinanciar", pero una probabilidad muy baja de correo basura para las palabras que se ven solo en el correo electrónico legítimo, como los nombres de amigos y miembros de la familia.

Después del entrenamiento, las probabilidades de las palabras (también conocida como funciones de verosimilitud) se utilizan para calcular la probabilidad de que un correo electrónico con un determinado conjunto de palabras pertenece a una u otra categoría. Cada palabra en el correo electrónico contribuye a la probabilidad de que este correo sea correo basura, o solo las palabras más interesantes. Esta contribución se llama la probabilidad posterior y se calcula utilizando el Teorema de Bayes. Entonces, la probabilidad de correo basura se calcula sobre todas las palabras en el correo electrónico, y si el total supera un determinado umbral (digamos 95%), el filtro marcará el correo electrónico como correo basura.

Al igual que en cualquiera otra técnica de filtrado de correo basura el correo electrónico marcado como correo basura, se puede mover de forma automática a una carpeta de correo electrónico "basura", o incluso eliminarse por completo. Algunos programas de software implementan mecanismos de cuarentena que definen un marco de tiempo durante el cual se le permite al usuario revisar la decisión del software.

El entrenamiento inicial por lo general puede ser refinado cuando los juicios erróneos del software son identificados (falsos positivos o falsos negativos). Eso permite que el software pueda adaptarse dinámicamente a la naturaleza siempre cambiante de los correos basura.

Algunos filtros de correo basura combinan los resultados del filtro bayesiano con otras heurísticas ((reglas predefinidas sobre el contenido, búsqueda específica dentro del mensaje, etc.), lo que resulta en una mayor precisión de filtrado, a veces a costa de la capacidad de adaptación.

Fundamentos matemáticos editar

Los filtros de correo electrónico bayesianos utilizan el Teorema de Bayes. El teorema de Bayes se utiliza varias veces en el contexto de correo basura:

  • una primera vez, para calcular la probabilidad de que el mensaje es correo basura, sabiendo que una palabra dada aparece en este mensaje;
  • por segunda vez, para calcular la probabilidad de que el mensaje es correo basura, teniendo en cuenta la totalidad de sus palabras (o un subconjunto relevante de ellos);
  • a veces una tercera vez, para hacer frente a las palabras raras.

Cálculo de la probabilidad de que un mensaje que contiene una palabra dada es correo basura editar

Supongamos que el mensaje sospechoso contiene la palabra "réplica". La mayoría de las personas que están acostumbrados a recibir correos electrónicos saben que este mensaje es probable que sea un correo no deseado, más precisamente una propuesta para vender copias falsificadas de marcas conocidas de relojes. El software de detección de correos no deseados, sin embargo, no "sabe" tales hechos; todo lo que puede hacer es probabilidades de cómputo.

La fórmula utilizada por el software para determinar que se deriva del Teorema de Bayes es:

 

dónde:

  •   es la probabilidad de que un mensaje es un correo no deseado, a sabiendas de que la palabra "réplica" está en él;
  •   es la probabilidad general de que cualquier mensaje dado es correo basura;
  •   es la probabilidad de que la palabra "réplica" aparece en los mensajes de correo basura;
  •   es la probabilidad general de que cualquier mensaje dado no es correo basura (es "legítimo");
  •   es la probabilidad de que la palabra "réplica" aparece en los mensajes legítimos.

La basurabilidad de una palabra en el correo editar

Estadísticas recientes[8]​ muestran que la probabilidad actual de cualquier mensaje sea correo basura es del 80%, como mínimo:

 

Sin embargo, la mayoría del software de detección de correo basura bayesiano hace la suposición de que no hay ninguna razón a priori para cualquier mensaje entrante sea un correo no deseado en lugar de legítimo, y considera en ambos casos tener probabilidades iguales de 50%: [cita requerida]

 

Los filtros que utilizan esta hipótesis se dice que son "no sesgados", lo que significa que no tienen prejuicios con respecto a los correos electrónicos entrantes. Este supuesto permite la simplificación de la fórmula general:

 

Esto es funcionalmente equivalente a preguntar: "¿qué porcentaje de las apariciones de la palabra" réplica "aparecen en los mensajes de correo basura?"

Esta cantidad se denomina basurabilidad (del término inglés spamicity) de la palabra "réplica", y se puede calcular. El número   utilizado en esta fórmula es aproximado a la frecuencia de los mensajes que contienen "réplica" en los mensajes identificados como correo basura durante la fase de aprendizaje. Del mismo modo,   se aproxima a la frecuencia de los mensajes que contienen "réplica" en los mensajes identificados como legítimos durante la fase de aprendizaje. Por estas aproximaciones para dar sentido, el conjunto de mensajes de aprendizaje tiene que ser lo suficientemente grande y representativo. También es recomendable que el conjunto de aprendizaje de los mensajes se ajuste al 50% de hipótesis acerca de reparto entre correos basura y correos legítimos, es decir, que los conjuntos de datos de correos no deseados y el de correos legítimos sean del mismo tamaño.[9]

Por supuesto, para determinar si un mensaje es correo basura o legítimo basado solo en la presencia de la palabra "réplica" es propenso a errores, por lo que el software de correo basura bayesiano intenta considerar varias palabras y combinar sus correo basurabilidades para determinar la probabilidad global de un mensaje de ser un correo no deseado.

Combinaciones de probabilides individuales editar

La mayoría de los algoritmos de filtrado de correo basura bayesiano se basan en fórmulas que son estrictamente válidas (desde un punto de vista probabilístico) solo si las palabras presentes en el mensaje son eventos independientes. Esta condición no se cumple en general (por ejemplo, en las lenguas naturales como el Inglés, la probabilidad de encontrar un adjetivo se ve afectada por la probabilidad de tener un sustantivo), pero es una idealización útil, sobre todo porque las correlaciones estadísticas entre palabras individuales no suelen ser conocidas. Sobre esta base, se puede derivar la siguiente fórmula del teorema de Bayes:[10]

 

dónde:

  •   es la probabilidad de que el mensaje sospechoso es correo no deseado;
  •   es la probabilidad   que es saber un correo basura que contiene una primera palabra (por ejemplo, "réplica");
  •   es la probabilidad   que es saber un correo basura que contiene una segunda palabra (por ejemplo, "relojes");
  • etc...
  •   es la probabilidad   que es saber un correo basura que contiene una n-ésima palabra (por ejemplo, "casa").

Esta es la fórmula que hace referencia Paul Graham en su artículo de 2002. Algunos comentarios tempranos decían que "Graham sacó sus fórmulas de la nada",[11]​ pero Graham en realidad había referenciado a su fuente,[12]​ que incluye una explicación detallada de la fórmula, y las idealizaciones sobre las que él se basa.

Los software de filtrado de correo basura basados en esta fórmula se refieren a veces como un Clasificador Naive Bayes. El resultado de p se suele comparar con un umbral dado para decidir si el mensaje es correo basura o no. Si p es menor que el umbral, el mensaje se consideraba probable legítimo, de lo contrario se considera como probable correo basura.

Otra expresión de la fórmula para la combinación de probabilidades individuales editar

Generalmente p no se calcula directamente usando la fórmula anterior debido al punto flotante underflow. En su lugar, p puede ser calculada en el dominio de logaritmos reescribiendo la ecuación original de la siguiente manera:

 

Tomando los logaritmos en ambos lados:

 

Dejar  . Por consiguiente,

 

De ahí que la fórmula alternativa para el cálculo de la probabilidad combinada:

 

Tratamiento para palabras raras editar

En el caso de que una palabra no se ha conocido durante la fase de aprendizaje, tanto el numerador como el denominador son iguales a cero, tanto en la fórmula general y en la fórmula basurabilidad del correo. El software puede decidir descartar tales palabras para las cuales no hay información disponible.

En términos más generales, las palabras que se encuentran a solo un par de veces durante la fase de aprendizaje causan un problema, porque sería un error confiar ciegamente la información que proporcionan. Una solución sencilla es simplemente evitar la adopción de tales palabras no fiables, no tenerlas en cuenta.

Aplicando de nuevo el teorema de Bayes, y suponiendo que la clasificación entre los correos electrónicos correo basura y legítimos que contengan una palabra determinada ("réplica") es una variable aleatoria con distribución beta, algunos programas deciden utilizar una probabilidad corregida:

 

dónde:

  •   es la probabilidad corregida para que el mensaje sea correo no deseado, a sabiendas de que contiene una palabra dada;
  •   es la fuerza que le damos a la información de fondo sobre el correo basura entrante;
  •   es la probabilidad de cualquier mensaje entrante sea correo basura;
  •   es el número de ocurrencias de esta palabra durante la fase de aprendizaje;
  •   es la basurabilidad de esta palabra.

(Demostración:[13]​)

Esta probabilidad corregida se utiliza en lugar de la basurabilidad en la fórmula de combinación.

  de nuevo se puede tomar igual a 0.5, para evitar ser demasiado sospechoso con el correo electrónico entrante. 3 es un buen valor para s, lo que significa que el cuerpo aprendido debe contener más de 3 mensajes con esa palabra para poner más confianza en el valor basurabilidad que en el valor predeterminado.

Esta fórmula puede extenderse para el caso en que n es igual a cero (y donde no se define la basurabilidad), y evalúa en este caso para  .

Otra heurística editar

Palabras "neutrales" como "el", "a", "algunos", o "es", o sus equivalentes en otros idiomas, se pueden ignorar. En términos más generales, algunos filtros bayesianos simplemente ignoran todas las palabras que tienen una basurabilidad próxima a 0,5, ya que contribuyen muy poco para una buena decisión. Las palabras que se tienen en cuenta son aquellos cuya basurabilidad está al lado de 0.0 (signos distintivos de los mensajes legítimos), o al lado de 1,0 (signos distintivos de correo no deseado). Un método puede ser, por ejemplo para mantener solo las diez palabras, en el mensaje examinado, que tiene el mayor valor absoluto |0.5 − pI|.

Algunos software tienen en cuenta el hecho de que una palabra dada aparece varias veces en el mensaje examinado,[14]​ otros no lo hacen.

Algunos productos de software utilizan patrones (secuencias de palabras) en vez de palabras de aislados idiomas naturales.[15]​ Por ejemplo, con una "ventana de contexto" de cuatro palabras, que calculan la basurabilidad de "Viagra es bueno para", en lugar de calcular las basurabilidad de "Viagra "," es "," bueno ", y" para ". Este método da más sensibilidad al contexto y elimina el ruido bayesiano mejor, a expensas de una base de datos más grande.

Métodos mixtos editar

Hay otras maneras de combinar probabilidades individuales para diferentes palabras que usando el enfoque de "naive". Estos métodos difieren de ella en los supuestos que hacen en las propiedades estadísticas de los datos de entrada. Estas hipótesis diferentes resultan fórmulas distintas radicalmente para combinar las probabilidades individuales.

Por ejemplo, suponiendo que las probabilidades individuales siguen una distribución chi-cuadrado con 2N grados de libertad, se podría utilizar la fórmula:

 

donde C−1 es la inversa de la función chi-cuadrado.

Las probabilidades individuales también se pueden combinar con las técnicas de la discriminación de Markovian.

Discusión editar

Ventajas editar

Una de las principales ventajas [cita requerida] del filtro bayesiano es que puede ser entrenado en base de un usuario. El correo basura que recibe un usuario está a menudo relacionado con las actividades del usuario en línea. Por ejemplo, un usuario puede haberse suscrito a un boletín en línea que el usuario considere correo basura. Este boletín de noticias en línea es probable que contenga las palabras que son comunes a todos los boletines de noticias, tales como el nombre del boletín de noticias y su dirección de correo electrónico de origen. Un filtro de correo basura bayesiano finalmente asigna una probabilidad superior basada en patrones específicos del usuario. Los correos legítimos que un usuario recibe tenderán a ser diferente. Por ejemplo, en un entorno corporativo, se mencionan a menudo el nombre de la empresa y el nombre del cliente o los clientes. El filtro asignará una probabilidad inferior a los correos electrónicos de correo basura que contienen esos nombres.

Las probabilidades de las palabras son únicas para cada usuario y pueden evolucionar con el tiempo con el aprendizaje correctivo cuando el filtro clasifica erróneamente un correo electrónico. Como resultado, la precisión del filtrado de correo basura bayesiano después del entrenamiento es a menudo superior que las reglas pre-definidas. Se puede especializar bien en evitar falsos positivos,[cita requerida] donde el correo electrónico legítimo se clasifica incorrectamente como correo basura. Por ejemplo, si el correo electrónico contiene la palabra "Nigeria", que se utiliza con frecuencia en Estafa nigeriana, un filtro de reglas predefinidas podría rechazarla de plano. Un filtro bayesiano marcaría la palabra "Nigeria" como una palabra probablemente indeseada, pero tendría en cuenta otras palabras importantes que generalmente indican correo electrónico legítimo. Por ejemplo, el nombre de un cónyuge puede indicar fuertemente el correo no es correo basura, lo que podría superar el uso de la palabra "Nigeria".

Desventajas editar

Dependiendo de la aplicación, el filtro bayesiano puede ser susceptible de envenenamiento bayesiano, una técnica utilizada por los remitentes de correo basura en un intento de degradar la efectividad de los filtros de correo basura que se basan en el filtrado bayesiano. Un remitente de correo basura que practica el envenenamiento bayesiano enviará correos electrónicos con grandes cantidades de texto legítimo (obtenida de noticias legítimas o fuentes literarias). Las tácticas de los remitentes de correo basura incluyen la inserción de palabras inocuas aleatorias que normalmente no se asocian con el correo basura, disminuyendo así la puntuación de correo basura del correo electrónico, por lo que es más propenso a deslizarse más allá de un filtro bayesiano de correo basura. Sin embargo,(por ejemplo) en el esquema de Paul Graham se utilizan solo las probabilidades más significativas, de manera que el relleno del texto con las palabras no relacionadas con el correo basura no afecta a la probabilidad de detección de manera significativa.

Las palabras que aparecen normalmente en grandes cantidades en el correo basura también pueden ser transformadas por los remitentes de correo basura. Por ejemplo, «Viagra» sería sustituido por «Viaagra» o «V! Agra» en el mensaje de correo basura. El destinatario del mensaje todavía puede leer las palabras cambiadas, pero cada una de estas palabras se reunieron más raramente por el filtro bayesiano, lo que dificulta su proceso de aprendizaje. Como regla general, esta técnica correo basura no funciona muy bien, porque las palabras derivadas terminan reconocidos por el filtro al igual que las normales.[16]

Otra técnica utilizada para tratar de derrotar a los filtros de correo basura bayesiano es reemplazar texto con imágenes, ya sea directamente incluidos o vinculados. Todo el texto del mensaje, o alguna parte de ella, se reemplaza por un cuadro en el que el mismo texto se "dibuja". El filtro de correo no deseado suele ser incapaz de analizar este cuadro, que contendría las palabras sensibles como «Viagra». Sin embargo, ya que muchos clientes de correo desactivan la visualización de imágenes vinculadas por razones de seguridad, el remitente de correo basura envía enlaces a imágenes distantes que podrían llegar a menos objetivos. Además, el tamaño de una imagen en bytes es más grande que el tamaño del texto equivalente, por lo que el remitente de correo basura necesita más ancho de banda para enviar mensajes directamente que contengan imágenes. Algunos filtros son más proclives a decidir que un mensaje es correo basura si tiene contenidos en su mayoría gráficos. Una solución utilizada por Google en su sistema de correo electrónico Gmail en su sistema de correo electrónico OCR (Optical Character Recognition) a cada imagen de gran tamaño, analizando el texto dentro.[17]

Aplicaciones generales de filtrado bayesiano editar

Si bien el filtrado Bayesiano es ampliamente utilizado para identificar correos electrónicos correo basura, la técnica puede clasificar (o "cluster") casi cualquier tipo de datos. Tiene usos en la ciencia, la medicina y la ingeniería. Un ejemplo es un programa de clasificación de propósito general llamada AutoClass que originalmente se utilizó para clasificar estrellas de acuerdo a las características espectrales que eran de otro modo demasiado sutil para darse cuenta.

Véase también editar

Referencias editar

  1. Jason Rennie (1996). «ifile». 
  2. M. Sahami, S. Dumais, D. Heckerman, E. Horvitz (1998). «A Bayesian approach to filtering junk e-mail». AAAI'98 Workshop on Learning for Text Categorization. 
  3. Paul Graham (2003), Better Bayesian filtering
  4. Brian Livingston (2002), Paul Graham provides stunning answer to spam e-mails
  5. «Junk Mail Controls». MozillaZine. noviembre de 2009. 
  6. «Installation». Ubuntu manuals. 18 de septiembre de 2010. desde el original el 29 de septiembre de 2010. Consultado el 18 de septiembre de 2010. «Gary Robinson’s f(x) and combining algorithms, as used in SpamAssassin ». 
  7. «Background Reading». SpamBayes project. 18 de septiembre de 2010. desde el original el 6 de septiembre de 2010. Consultado el 18 de septiembre de 2010. «Sharpen your pencils, this is the mathematical background (such as it is).* The paper that started the ball rolling: Paul Graham's A Plan for Spam.* Gary Robinson has an interesting essay suggesting some improvements to Graham's original approach.* Gary Robinson's Linux Journal article discussed using the chi squared distribution. » 
  8. Dylan Mors and Dermot Harnett (2009). . Archivado desde el original el 7 de octubre de 2009. Consultado el 27 de octubre de 2015. 
  9. Process Software, Introduction to Bayesian Filtering el 6 de febrero de 2012 en Wayback Machine.
  10. «Combining probabilities».  at MathPages
  11. http://mail.python.org/pipermail/python-dev/2002-August/028216.html Tim Peter's comment on the algorithm used by Graham
  12. «Graham's web page referencing the MathPages article for the probability formula used in his spam algorithm.». 
  13. Gary Robinson (2003). «A statistical approach to the spam problem». Linux Journal. 
  14. Brian Burton (2003). «SpamProbe - Bayesian Spam Filtering Tweaks». 
  15. Jonathan A. Zdziarski (2004). «Bayesian Noise Reduction: Contextual Symmetry Logic Utilizing Pattern Consistency Analysis».  (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
  16. Paul Graham (2002), A Plan for Spam
  17. «Gmail uses Google's innovative technology to keep spam out of your inbox». 

Enlaces externos editar

  • Guide to Bayesian correo basura filters: part 1, part 2.
  •   Datos: Q812531

filtrado, bayesiano, spam, texto, sigue, traducción, defectuosa, quieres, colaborar, wikipedia, busca, artículo, original, mejora, esta, traducción, clasificadores, naive, bayes, populares, estadísticas, técnicas, filtrado, email, suelen, utilizar, conjunto, p. El texto que sigue es una traduccion defectuosa Si quieres colaborar con Wikipedia busca el articulo original y mejora esta traduccion Los clasificadores Naive Bayes son populares estadisticas tecnicas de filtrado de email Se suelen utilizar un conjunto de palabras caracteristicas para identificar los correos basura un enfoque comun en la clasificacion de textos Los clasificadores Naive Bayes trabajan correlacionandos a el uso de tokens por lo general palabras o algunas veces otras cosas con mensajes de correos electronicos que no son correo basura y otros que si lo son Utilizando luego el Teorema de Bayes para calcular la probabilidad de que un correo electronico es o no es correo basura El filtrado de correo basura bayesiano es una tecnica de linea de base para tratar con el correo basura se puede adaptar a las necesidades de correo electronico de los usuarios individuales y dar pocos indices de falsos positivos en la deteccion de correo basura que son generalmente aceptables para los usuarios Es una de las formas mas antiguas de hacer filtrado de correo basura con raices en la decada de 1990 Indice 1 Historia 2 Proceso 3 Fundamentos matematicos 3 1 Calculo de la probabilidad de que un mensaje que contiene una palabra dada es correo basura 3 2 La basurabilidad de una palabra en el correo 3 3 Combinaciones de probabilides individuales 3 4 Otra expresion de la formula para la combinacion de probabilidades individuales 3 5 Tratamiento para palabras raras 3 6 Otra heuristica 3 7 Metodos mixtos 4 Discusion 4 1 Ventajas 4 2 Desventajas 5 Aplicaciones generales de filtrado bayesiano 6 Vease tambien 7 Referencias 8 Enlaces externosHistoria editarEl primer programa de filtrado de correo conocido por utilizar un clasificador de Naive Bayes era el programa iFile de Jason Rennie lanzado en 1996 El programa fue utilizado para ordenar el correo dentro de las carpetas 1 La primera publicacion academica sobre filtro bayesiano fue por Sahami et al en 1998 2 Ese trabajo se desplego poco despues en filtros comerciales de correo basura cita requerida Sin embargo en 2002 Paul Graham disminuyo en gran medida la tasa de falsos positivos por lo que podria ser utilizado por si mismo como un solo filtro de correo basura 3 4 Las variantes de la tecnica basica se han aplicado en una serie de trabajos de investigacion y de software comerciales de productos 5 Muchos clientes de correo modernos tienen implementado el filtrado de correo basura bayesiano Los usuarios tambien pueden instalar diferentes programas de filtrado para email Por parte de los servidores existen filtros de correo electronico tales como CRM114 correo basura correo basuraAssassin 6 correo basuraBayes 7 Bogofilter and Anti correo basura SMTP Proxy que hacen uso de tecnicas de filtrado de correo basura bayesiano y la funcionalidad es a veces embebida dentro del servidor de correo del propio software Proceso editarPalabras particulares tienen determinadas probabilidades de ocurrir en el correo electronico correo basura y en el correo electronico legitimo Por ejemplo la mayoria de los usuarios de correo electronico con frecuencia se encontrara con la palabra Viagra en el correo electronico correo basura pero rara vez verlo en otro correo electronico El filtro no sabe estas probabilidades de antemano y debe primero ser entrenado para que pueda aprender Para entrenar el filtro el usuario debe indicar manualmente si un nuevo correo electronico es correo basura o no Las palabras de los correos entrantes seran guardadas en la base de datos del filtro con una probabilidad que sera ajustada segun su aparicion o no en el correo de correo basura Por ejemplo los filtros bayesianos de correo basura normalmente habran aprendido una muy alta probabilidad de correo basura para las palabras Viagra y refinanciar pero una probabilidad muy baja de correo basura para las palabras que se ven solo en el correo electronico legitimo como los nombres de amigos y miembros de la familia Despues del entrenamiento las probabilidades de las palabras tambien conocida como funciones de verosimilitud se utilizan para calcular la probabilidad de que un correo electronico con un determinado conjunto de palabras pertenece a una u otra categoria Cada palabra en el correo electronico contribuye a la probabilidad de que este correo sea correo basura o solo las palabras mas interesantes Esta contribucion se llama la probabilidad posterior y se calcula utilizando el Teorema de Bayes Entonces la probabilidad de correo basura se calcula sobre todas las palabras en el correo electronico y si el total supera un determinado umbral digamos 95 el filtro marcara el correo electronico como correo basura Al igual que en cualquiera otra tecnica de filtrado de correo basura el correo electronico marcado como correo basura se puede mover de forma automatica a una carpeta de correo electronico basura o incluso eliminarse por completo Algunos programas de software implementan mecanismos de cuarentena que definen un marco de tiempo durante el cual se le permite al usuario revisar la decision del software El entrenamiento inicial por lo general puede ser refinado cuando los juicios erroneos del software son identificados falsos positivos o falsos negativos Eso permite que el software pueda adaptarse dinamicamente a la naturaleza siempre cambiante de los correos basura Algunos filtros de correo basura combinan los resultados del filtro bayesiano con otras heuristicas reglas predefinidas sobre el contenido busqueda especifica dentro del mensaje etc lo que resulta en una mayor precision de filtrado a veces a costa de la capacidad de adaptacion Fundamentos matematicos editarLos filtros de correo electronico bayesianos utilizan el Teorema de Bayes El teorema de Bayes se utiliza varias veces en el contexto de correo basura una primera vez para calcular la probabilidad de que el mensaje es correo basura sabiendo que una palabra dada aparece en este mensaje por segunda vez para calcular la probabilidad de que el mensaje es correo basura teniendo en cuenta la totalidad de sus palabras o un subconjunto relevante de ellos a veces una tercera vez para hacer frente a las palabras raras Calculo de la probabilidad de que un mensaje que contiene una palabra dada es correo basura editar Supongamos que el mensaje sospechoso contiene la palabra replica La mayoria de las personas que estan acostumbrados a recibir correos electronicos saben que este mensaje es probable que sea un correo no deseado mas precisamente una propuesta para vender copias falsificadas de marcas conocidas de relojes El software de deteccion de correos no deseados sin embargo no sabe tales hechos todo lo que puede hacer es probabilidades de computo La formula utilizada por el software para determinar que se deriva del Teorema de Bayes es Pr S W Pr W S Pr S Pr W S Pr S Pr W H Pr H displaystyle Pr S W frac Pr W S cdot Pr S Pr W S cdot Pr S Pr W H cdot Pr H nbsp donde Pr S W displaystyle Pr S W nbsp es la probabilidad de que un mensaje es un correo no deseado a sabiendas de que la palabra replica esta en el Pr S displaystyle Pr S nbsp es la probabilidad general de que cualquier mensaje dado es correo basura Pr W S displaystyle Pr W S nbsp es la probabilidad de que la palabra replica aparece en los mensajes de correo basura Pr H displaystyle Pr H nbsp es la probabilidad general de que cualquier mensaje dado no es correo basura es legitimo Pr W H displaystyle Pr W H nbsp es la probabilidad de que la palabra replica aparece en los mensajes legitimos La basurabilidad de una palabra en el correo editar Estadisticas recientes 8 muestran que la probabilidad actual de cualquier mensaje sea correo basura es del 80 como minimo Pr S 0 8 Pr H 0 2 displaystyle Pr S 0 8 Pr H 0 2 nbsp Sin embargo la mayoria del software de deteccion de correo basura bayesiano hace la suposicion de que no hay ninguna razon a priori para cualquier mensaje entrante sea un correo no deseado en lugar de legitimo y considera en ambos casos tener probabilidades iguales de 50 cita requerida Pr S 0 5 Pr H 0 5 displaystyle Pr S 0 5 Pr H 0 5 nbsp Los filtros que utilizan esta hipotesis se dice que son no sesgados lo que significa que no tienen prejuicios con respecto a los correos electronicos entrantes Este supuesto permite la simplificacion de la formula general Pr S W Pr W S Pr W S Pr W H displaystyle Pr S W frac Pr W S Pr W S Pr W H nbsp Esto es funcionalmente equivalente a preguntar que porcentaje de las apariciones de la palabra replica aparecen en los mensajes de correo basura Esta cantidad se denomina basurabilidad del termino ingles spamicity de la palabra replica y se puede calcular El numero Pr W S displaystyle Pr W S nbsp utilizado en esta formula es aproximado a la frecuencia de los mensajes que contienen replica en los mensajes identificados como correo basura durante la fase de aprendizaje Del mismo modo Pr W H displaystyle Pr W H nbsp se aproxima a la frecuencia de los mensajes que contienen replica en los mensajes identificados como legitimos durante la fase de aprendizaje Por estas aproximaciones para dar sentido el conjunto de mensajes de aprendizaje tiene que ser lo suficientemente grande y representativo Tambien es recomendable que el conjunto de aprendizaje de los mensajes se ajuste al 50 de hipotesis acerca de reparto entre correos basura y correos legitimos es decir que los conjuntos de datos de correos no deseados y el de correos legitimos sean del mismo tamano 9 Por supuesto para determinar si un mensaje es correo basura o legitimo basado solo en la presencia de la palabra replica es propenso a errores por lo que el software de correo basura bayesiano intenta considerar varias palabras y combinar sus correo basurabilidades para determinar la probabilidad global de un mensaje de ser un correo no deseado Combinaciones de probabilides individuales editar La mayoria de los algoritmos de filtrado de correo basura bayesiano se basan en formulas que son estrictamente validas desde un punto de vista probabilistico solo si las palabras presentes en el mensaje son eventos independientes Esta condicion no se cumple en general por ejemplo en las lenguas naturales como el Ingles la probabilidad de encontrar un adjetivo se ve afectada por la probabilidad de tener un sustantivo pero es una idealizacion util sobre todo porque las correlaciones estadisticas entre palabras individuales no suelen ser conocidas Sobre esta base se puede derivar la siguiente formula del teorema de Bayes 10 p p 1 p 2 p N p 1 p 2 p N 1 p 1 1 p 2 1 p N displaystyle p frac p 1 p 2 cdots p N p 1 p 2 cdots p N 1 p 1 1 p 2 cdots 1 p N nbsp donde p displaystyle p nbsp es la probabilidad de que el mensaje sospechoso es correo no deseado p 1 displaystyle p 1 nbsp es la probabilidad p S W 1 displaystyle p S W 1 nbsp que es saber un correo basura que contiene una primera palabra por ejemplo replica p 2 displaystyle p 2 nbsp es la probabilidad p S W 2 displaystyle p S W 2 nbsp que es saber un correo basura que contiene una segunda palabra por ejemplo relojes etc p N displaystyle p N nbsp es la probabilidad p S W N displaystyle p S W N nbsp que es saber un correo basura que contiene una n esima palabra por ejemplo casa Esta es la formula que hace referencia Paul Graham en su articulo de 2002 Algunos comentarios tempranos decian que Graham saco sus formulas de la nada 11 pero Graham en realidad habia referenciado a su fuente 12 que incluye una explicacion detallada de la formula y las idealizaciones sobre las que el se basa Los software de filtrado de correo basura basados en esta formula se refieren a veces como un Clasificador Naive Bayes El resultado de p se suele comparar con un umbral dado para decidir si el mensaje es correo basura o no Si p es menor que el umbral el mensaje se consideraba probable legitimo de lo contrario se considera como probable correo basura Otra expresion de la formula para la combinacion de probabilidades individuales editar Generalmente p no se calcula directamente usando la formula anterior debido al punto flotante underflow En su lugar p puede ser calculada en el dominio de logaritmos reescribiendo la ecuacion original de la siguiente manera 1 p 1 1 p 1 1 p 2 1 p N p 1 p 2 p N displaystyle frac 1 p 1 frac 1 p 1 1 p 2 dots 1 p N p 1 p 2 dots p N nbsp Tomando los logaritmos en ambos lados ln 1 p 1 i 1 N ln 1 p i ln p i displaystyle ln left frac 1 p 1 right sum i 1 N left ln 1 p i ln p i right nbsp Dejar h i 1 N ln 1 p i ln p i displaystyle eta sum i 1 N left ln 1 p i ln p i right nbsp Por consiguiente 1 p 1 e h displaystyle frac 1 p 1 e eta nbsp De ahi que la formula alternativa para el calculo de la probabilidad combinada p 1 1 e h displaystyle p frac 1 1 e eta nbsp Tratamiento para palabras raras editar En el caso de que una palabra no se ha conocido durante la fase de aprendizaje tanto el numerador como el denominador son iguales a cero tanto en la formula general y en la formula basurabilidad del correo El software puede decidir descartar tales palabras para las cuales no hay informacion disponible En terminos mas generales las palabras que se encuentran a solo un par de veces durante la fase de aprendizaje causan un problema porque seria un error confiar ciegamente la informacion que proporcionan Una solucion sencilla es simplemente evitar la adopcion de tales palabras no fiables no tenerlas en cuenta Aplicando de nuevo el teorema de Bayes y suponiendo que la clasificacion entre los correos electronicos correo basura y legitimos que contengan una palabra determinada replica es una variable aleatoria con distribucion beta algunos programas deciden utilizar una probabilidad corregida Pr S W s Pr S n Pr S W s n displaystyle Pr S W frac s cdot Pr S n cdot Pr S W s n nbsp donde Pr S W displaystyle Pr S W nbsp es la probabilidad corregida para que el mensaje sea correo no deseado a sabiendas de que contiene una palabra dada s displaystyle s nbsp es la fuerza que le damos a la informacion de fondo sobre el correo basura entrante Pr S displaystyle Pr S nbsp es la probabilidad de cualquier mensaje entrante sea correo basura n displaystyle n nbsp es el numero de ocurrencias de esta palabra durante la fase de aprendizaje Pr S W displaystyle Pr S W nbsp es la basurabilidad de esta palabra Demostracion 13 Esta probabilidad corregida se utiliza en lugar de la basurabilidad en la formula de combinacion Pr S displaystyle Pr S nbsp de nuevo se puede tomar igual a 0 5 para evitar ser demasiado sospechoso con el correo electronico entrante 3 es un buen valor para s lo que significa que el cuerpo aprendido debe contener mas de 3 mensajes con esa palabra para poner mas confianza en el valor basurabilidad que en el valor predeterminado Esta formula puede extenderse para el caso en que n es igual a cero y donde no se define la basurabilidad y evalua en este caso para P r S displaystyle Pr S nbsp Otra heuristica editar Palabras neutrales como el a algunos o es o sus equivalentes en otros idiomas se pueden ignorar En terminos mas generales algunos filtros bayesianos simplemente ignoran todas las palabras que tienen una basurabilidad proxima a 0 5 ya que contribuyen muy poco para una buena decision Las palabras que se tienen en cuenta son aquellos cuya basurabilidad esta al lado de 0 0 signos distintivos de los mensajes legitimos o al lado de 1 0 signos distintivos de correo no deseado Un metodo puede ser por ejemplo para mantener solo las diez palabras en el mensaje examinado que tiene el mayor valor absoluto 0 5 pI Algunos software tienen en cuenta el hecho de que una palabra dada aparece varias veces en el mensaje examinado 14 otros no lo hacen Algunos productos de software utilizan patrones secuencias de palabras en vez de palabras de aislados idiomas naturales 15 Por ejemplo con una ventana de contexto de cuatro palabras que calculan la basurabilidad de Viagra es bueno para en lugar de calcular las basurabilidad de Viagra es bueno y para Este metodo da mas sensibilidad al contexto y elimina el ruido bayesiano mejor a expensas de una base de datos mas grande Metodos mixtos editar Hay otras maneras de combinar probabilidades individuales para diferentes palabras que usando el enfoque de naive Estos metodos difieren de ella en los supuestos que hacen en las propiedades estadisticas de los datos de entrada Estas hipotesis diferentes resultan formulas distintas radicalmente para combinar las probabilidades individuales Por ejemplo suponiendo que las probabilidades individuales siguen una distribucion chi cuadrado con 2N grados de libertad se podria utilizar la formula p C 1 2 ln p 1 p 2 p N 2 N displaystyle p C 1 2 ln p 1 p 2 cdots p N 2N nbsp donde C 1 es la inversa de la funcion chi cuadrado Las probabilidades individuales tambien se pueden combinar con las tecnicas de la discriminacion de Markovian Discusion editarVentajas editar Una de las principales ventajas cita requerida del filtro bayesiano es que puede ser entrenado en base de un usuario El correo basura que recibe un usuario esta a menudo relacionado con las actividades del usuario en linea Por ejemplo un usuario puede haberse suscrito a un boletin en linea que el usuario considere correo basura Este boletin de noticias en linea es probable que contenga las palabras que son comunes a todos los boletines de noticias tales como el nombre del boletin de noticias y su direccion de correo electronico de origen Un filtro de correo basura bayesiano finalmente asigna una probabilidad superior basada en patrones especificos del usuario Los correos legitimos que un usuario recibe tenderan a ser diferente Por ejemplo en un entorno corporativo se mencionan a menudo el nombre de la empresa y el nombre del cliente o los clientes El filtro asignara una probabilidad inferior a los correos electronicos de correo basura que contienen esos nombres Las probabilidades de las palabras son unicas para cada usuario y pueden evolucionar con el tiempo con el aprendizaje correctivo cuando el filtro clasifica erroneamente un correo electronico Como resultado la precision del filtrado de correo basura bayesiano despues del entrenamiento es a menudo superior que las reglas pre definidas Se puede especializar bien en evitar falsos positivos cita requerida donde el correo electronico legitimo se clasifica incorrectamente como correo basura Por ejemplo si el correo electronico contiene la palabra Nigeria que se utiliza con frecuencia en Estafa nigeriana un filtro de reglas predefinidas podria rechazarla de plano Un filtro bayesiano marcaria la palabra Nigeria como una palabra probablemente indeseada pero tendria en cuenta otras palabras importantes que generalmente indican correo electronico legitimo Por ejemplo el nombre de un conyuge puede indicar fuertemente el correo no es correo basura lo que podria superar el uso de la palabra Nigeria Desventajas editar Dependiendo de la aplicacion el filtro bayesiano puede ser susceptible de envenenamiento bayesiano una tecnica utilizada por los remitentes de correo basura en un intento de degradar la efectividad de los filtros de correo basura que se basan en el filtrado bayesiano Un remitente de correo basura que practica el envenenamiento bayesiano enviara correos electronicos con grandes cantidades de texto legitimo obtenida de noticias legitimas o fuentes literarias Las tacticas de los remitentes de correo basura incluyen la insercion de palabras inocuas aleatorias que normalmente no se asocian con el correo basura disminuyendo asi la puntuacion de correo basura del correo electronico por lo que es mas propenso a deslizarse mas alla de un filtro bayesiano de correo basura Sin embargo por ejemplo en el esquema de Paul Graham se utilizan solo las probabilidades mas significativas de manera que el relleno del texto con las palabras no relacionadas con el correo basura no afecta a la probabilidad de deteccion de manera significativa Las palabras que aparecen normalmente en grandes cantidades en el correo basura tambien pueden ser transformadas por los remitentes de correo basura Por ejemplo Viagra seria sustituido por Viaagra o V Agra en el mensaje de correo basura El destinatario del mensaje todavia puede leer las palabras cambiadas pero cada una de estas palabras se reunieron mas raramente por el filtro bayesiano lo que dificulta su proceso de aprendizaje Como regla general esta tecnica correo basura no funciona muy bien porque las palabras derivadas terminan reconocidos por el filtro al igual que las normales 16 Otra tecnica utilizada para tratar de derrotar a los filtros de correo basura bayesiano es reemplazar texto con imagenes ya sea directamente incluidos o vinculados Todo el texto del mensaje o alguna parte de ella se reemplaza por un cuadro en el que el mismo texto se dibuja El filtro de correo no deseado suele ser incapaz de analizar este cuadro que contendria las palabras sensibles como Viagra Sin embargo ya que muchos clientes de correo desactivan la visualizacion de imagenes vinculadas por razones de seguridad el remitente de correo basura envia enlaces a imagenes distantes que podrian llegar a menos objetivos Ademas el tamano de una imagen en bytes es mas grande que el tamano del texto equivalente por lo que el remitente de correo basura necesita mas ancho de banda para enviar mensajes directamente que contengan imagenes Algunos filtros son mas proclives a decidir que un mensaje es correo basura si tiene contenidos en su mayoria graficos Una solucion utilizada por Google en su sistema de correo electronico Gmail en su sistema de correo electronico OCR Optical Character Recognition a cada imagen de gran tamano analizando el texto dentro 17 Aplicaciones generales de filtrado bayesiano editarSi bien el filtrado Bayesiano es ampliamente utilizado para identificar correos electronicos correo basura la tecnica puede clasificar o cluster casi cualquier tipo de datos Tiene usos en la ciencia la medicina y la ingenieria Un ejemplo es un programa de clasificacion de proposito general llamada AutoClass que originalmente se utilizo para clasificar estrellas de acuerdo a las caracteristicas espectrales que eran de otro modo demasiado sutil para darse cuenta Vease tambien editarTecnicas Anti correo basura Filtrado de Email Discriminacion de Markovian Mozilla Thunderbird Cliente con implementacion de tecnicas de filtrado bayesianoReferencias editar Jason Rennie 1996 ifile M Sahami S Dumais D Heckerman E Horvitz 1998 A Bayesian approach to filtering junk e mail AAAI 98 Workshop on Learning for Text Categorization Paul Graham 2003 Better Bayesian filtering Brian Livingston 2002 Paul Graham provides stunning answer to spam e mails Junk Mail Controls MozillaZine noviembre de 2009 Installation Ubuntu manuals 18 de septiembre de 2010 Archivado desde el original el 29 de septiembre de 2010 Consultado el 18 de septiembre de 2010 Gary Robinson s f x and combining algorithms as used in SpamAssassin Background Reading SpamBayes project 18 de septiembre de 2010 Archivado desde el original el 6 de septiembre de 2010 Consultado el 18 de septiembre de 2010 Sharpen your pencils this is the mathematical background such as it is The paper that started the ball rolling Paul Graham s A Plan for Spam Gary Robinson has an interesting essay suggesting some improvements to Graham s original approach Gary Robinson s Linux Journal article discussed using the chi squared distribution Dylan Mors and Dermot Harnett 2009 State of Spam a Monthly Report Report 33 Archivado desde el original el 7 de octubre de 2009 Consultado el 27 de octubre de 2015 Process Software Introduction to Bayesian Filtering Archivado el 6 de febrero de 2012 en Wayback Machine Combining probabilities at MathPages http mail python org pipermail python dev 2002 August 028216 html Tim Peter s comment on the algorithm used by Graham Graham s web page referencing the MathPages article for the probability formula used in his spam algorithm Gary Robinson 2003 A statistical approach to the spam problem Linux Journal Brian Burton 2003 SpamProbe Bayesian Spam Filtering Tweaks Jonathan A Zdziarski 2004 Bayesian Noise Reduction Contextual Symmetry Logic Utilizing Pattern Consistency Analysis enlace roto disponible en Internet Archive vease el historial la primera version y la ultima Paul Graham 2002 A Plan for Spam Gmail uses Google s innovative technology to keep spam out of your inbox Enlaces externos editarGuide to Bayesian correo basura filters part 1 part 2 Gary Robinson s correo basura blog nbsp Datos Q812531 Obtenido de https es wikipedia org w index php title Filtrado bayesiano de spam amp oldid 152743122, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos