fbpx
Wikipedia

k vecinos más próximos

El método de los k vecinos más cercanos (en inglés: k-nearest neighbors, abreviado -nn)[1]​ es un método de clasificación supervisada (Aprendizaje, estimación basada en un conjunto de formación y prototipos) que sirve para estimar la función de densidad de las predictoras por cada clase .

Este es un método de clasificación no paramétrico, que estima el valor de la función de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento pertenezca a la clase a partir de la información proporcionada por el conjunto de prototipos. En el proceso de aprendizaje no se hace ninguna suposición acerca de la distribución de las variables predictoras.

En el reconocimiento de patrones, el algoritmo -nn es usado como método de clasificación de objetos (elementos) basado en una formación mediante ejemplos cercanos en el espacio de los elementos. -nn es un tipo de aprendizaje vago (lazy learning), donde la función se aproxima solo localmente y todo el cómputo es diferido a la clasificación. La normalización de datos puede mejorar considerablemente la exactitud del algoritmo -nn.[2][3]

Algoritmo editar

 
Ejemplo del algoritmo Knn. El ejemplo que se desea clasificar es el círculo verde. Para k = 3 este es clasificado con la clase triángulo, ya que hay solo un cuadrado y 2 triángulos, dentro del círculo que los contiene. Si k = 5 este es clasificado con la clase cuadrado, ya que hay 2 triángulos y 3 cuadrados, dentro del círculo externo.

Los ejemplos de formación son vectores en un espacio característico multidimensional, cada ejemplo está descrito en términos de   atributos considerando   clases para la clasificación. Los valores de los atributos del  -ésimo ejemplo (donde  ) se representan por el vector  -dimensional

 

El espacio es particionado en regiones por localizaciones y etiquetas de los ejemplos de formación. Un punto en el espacio es asignado a la clase   si esta es la clase más frecuente entre los k ejemplos de formación más cercanos. Generalmente se usa la distancia euclidiana.

 

La fase de formación del algoritmo consiste en almacenar los vectores característicos y las etiquetas de las clases de los ejemplos de formación. En la fase de clasificación, la evaluación del ejemplo (del que no se conoce su clase) es representada por un vector en el espacio característico. Se calcula la distancia entre los vectores almacenados y el nuevo vector, y se seleccionan los   ejemplos más cercanos. El nuevo ejemplo es clasificado con la clase que más se repite en los vectores seleccionados.

Este método supone que los vecinos más cercanos nos dan la mejor clasificación y esto se hace utilizando todos los atributos; el problema de dicha suposición es que es posible que se tengan muchos atributos irrelevantes que dominen sobre la clasificación: dos atributos relevantes perderían peso entre otros veinte irrelevantes.

Para corregir el posible sesgo se puede asignar un peso a las distancias de cada atributo, dándole así mayor importancia a los atributos más relevantes. Otra posibilidad consiste en tratar de determinar o ajustar los pesos con ejemplos conocidos de formación. Finalmente, antes de asignar pesos es recomendable identificar y eliminar los atributos que se consideran irrelevantes.

En síntesis, el método  -nn se resume en dos algoritmos:

Algoritmo de formación editar

Para cada ejemplo   , donde  , agregar el ejemplo a la estructura representando los ejemplos de aprendizaje.

Algoritmo de clasificación editar

Dado un ejemplar   que debe ser clasificado, sean   los   vecinos más cercanos a   en los ejemplos de aprendizaje, regresar

 

donde usamos la notación de corchete de Iverson.

El valor   devuelto por el algoritmo como un estimador de   es solo el valor más común de   entre los   vecinos más cercanos a  . Si elegimos  ; entonces el vecino más cercano a   determina su valor.

Elección del editar

La mejor elección de   depende fundamentalmente de los datos; generalmente, valores grandes de   reducen el efecto de ruido en la clasificación, pero crean límites entre clases parecidas. Un buen   puede ser seleccionado mediante una optimización de uso. El caso especial en que la clase es predicha para ser la clase más cercana al ejemplo de formación (cuando  ) es llamada Nearest Neighbor Algorithm, Algoritmo del vecino más cercano.

La exactitud de este algoritmo puede ser severamente degradada por la presencia de ruido o características irrelevantes, o si las escalas de características no son consistentes con lo que uno considera importante. Muchas investigaciones y esfuerzos fueron puestos en la selección y crecimiento de características para mejorar las clasificaciones. Particularmente una aproximación en el uso de algoritmos que evolucionan para optimizar características de escalabilidad. Otra aproximación consiste en escalar características por la información mutua de los datos de formación con las clases de formación.

Posibles variantes del algoritmo básico editar

Vecinos más cercanos con distancia ponderada editar

Se puede ponderar la contribución de cada vecino de acuerdo a la distancia entre él y el ejemplar a ser clasificado  , dando mayor peso a los vecinos más cercanos. Por ejemplo podemos ponderar el voto de cada vecino de acuerdo al cuadrado inverso de sus distancias

 

donde

 

De esta manera se ve que no hay riesgo de permitir a todos los ejemplos formación contribuir a la clasificación de  , ya que al ser muy distantes no tendrían peso asociado. La desventaja de considerar todos los ejemplos sería su lenta respuesta (método global). Se quiere siempre tener un método local en el que solo los vecinos más cercanos son considerados.

Esta mejora es muy efectiva en muchos problemas prácticos. Es robusto ante los ruidos de datos y suficientemente efectivo en conjuntos de datos grandes. Se puede ver que al tomar promedios ponderados de los   vecinos más cercanos el algoritmo puede evitar el impacto de ejemplos con ruido aislados.

Regresión -nn editar

Como otras regresiones se trata de un algoritmo para estimar una variable continua  . El conjunto de formación es una muestra   de un espacio métrico (vectorial)  . El modelo formado es una función   que a cada elemento   fuera de   asigna la media de   donde los puntos   son los   elementos de la muestra más próximos a  .

Referencias editar

  1. Fix, E.; Hodges, J.L. (1989). «(1951): An Important Contribution to Nonparametric Discriminant Analysis and Density Estimation: Commentary on Fix and Hodges (1951)». International Statistical Review / Revue Internationale de Statistique 57 (3): 233-238. doi:10.2307/1403796. .
  2. Piryonesi, S. Madeh; El-Diraby, Tamer E. (2020-06). «Role of Data Analytics in Infrastructure Asset Management: Overcoming Data Size and Quality Problems». Journal of Transportation Engineering, Part B: Pavements (en inglés) 146 (2): 04020022. ISSN 2573-5438. doi:10.1061/JPEODX.0000175. Consultado el 7 de agosto de 2020. 
  3. Hastie, Trevor.; Friedman, J. H. (Jerome H.) (2001). The elements of statistical learning : data mining, inference, and prediction : with 200 full-color illustrations. Springer. ISBN 0-387-95284-5. OCLC 46809224. Consultado el 7 de agosto de 2020. 
  •   Datos: Q1071612

vecinos, más, próximos, método, vecinos, más, cercanos, inglés, nearest, neighbors, abreviado, displaystyle, método, clasificación, supervisada, aprendizaje, estimación, basada, conjunto, formación, prototipos, sirve, para, estimar, función, densidad, displays. El metodo de los k vecinos mas cercanos en ingles k nearest neighbors abreviado k displaystyle k nn 1 es un metodo de clasificacion supervisada Aprendizaje estimacion basada en un conjunto de formacion y prototipos que sirve para estimar la funcion de densidad F x C j displaystyle F x Cj de las predictoras x displaystyle x por cada clase C j displaystyle C j Este es un metodo de clasificacion no parametrico que estima el valor de la funcion de densidad de probabilidad o directamente la probabilidad a posteriori de que un elemento x displaystyle x pertenezca a la clase C j displaystyle C j a partir de la informacion proporcionada por el conjunto de prototipos En el proceso de aprendizaje no se hace ninguna suposicion acerca de la distribucion de las variables predictoras En el reconocimiento de patrones el algoritmo k displaystyle k nn es usado como metodo de clasificacion de objetos elementos basado en una formacion mediante ejemplos cercanos en el espacio de los elementos k displaystyle k nn es un tipo de aprendizaje vago lazy learning donde la funcion se aproxima solo localmente y todo el computo es diferido a la clasificacion La normalizacion de datos puede mejorar considerablemente la exactitud del algoritmo k displaystyle k nn 2 3 Indice 1 Algoritmo 1 1 Algoritmo de formacion 1 2 Algoritmo de clasificacion 2 Eleccion del UNIQ postMath 00000022 QINU 3 Posibles variantes del algoritmo basico 3 1 Vecinos mas cercanos con distancia ponderada 4 Regresion UNIQ postMath 0000002C QINU nn 5 ReferenciasAlgoritmo editar nbsp Ejemplo del algoritmo Knn El ejemplo que se desea clasificar es el circulo verde Para k 3 este es clasificado con la clase triangulo ya que hay solo un cuadrado y 2 triangulos dentro del circulo que los contiene Si k 5 este es clasificado con la clase cuadrado ya que hay 2 triangulos y 3 cuadrados dentro del circulo externo Los ejemplos de formacion son vectores en un espacio caracteristico multidimensional cada ejemplo esta descrito en terminos de p displaystyle p nbsp atributos considerando q displaystyle q nbsp clases para la clasificacion Los valores de los atributos del i displaystyle i nbsp esimo ejemplo donde 1 i n displaystyle 1 leq i leq n nbsp se representan por el vector p displaystyle p nbsp dimensionalx i x 1 i x 2 i x p i X displaystyle x i x 1i x 2i x pi in X nbsp El espacio es particionado en regiones por localizaciones y etiquetas de los ejemplos de formacion Un punto en el espacio es asignado a la clase C displaystyle C nbsp si esta es la clase mas frecuente entre los k ejemplos de formacion mas cercanos Generalmente se usa la distancia euclidiana d x i x j r 1 p x r i x r j 2 displaystyle d x i x j sqrt sum r 1 p x ri x rj 2 nbsp La fase de formacion del algoritmo consiste en almacenar los vectores caracteristicos y las etiquetas de las clases de los ejemplos de formacion En la fase de clasificacion la evaluacion del ejemplo del que no se conoce su clase es representada por un vector en el espacio caracteristico Se calcula la distancia entre los vectores almacenados y el nuevo vector y se seleccionan los k displaystyle k nbsp ejemplos mas cercanos El nuevo ejemplo es clasificado con la clase que mas se repite en los vectores seleccionados Este metodo supone que los vecinos mas cercanos nos dan la mejor clasificacion y esto se hace utilizando todos los atributos el problema de dicha suposicion es que es posible que se tengan muchos atributos irrelevantes que dominen sobre la clasificacion dos atributos relevantes perderian peso entre otros veinte irrelevantes Para corregir el posible sesgo se puede asignar un peso a las distancias de cada atributo dandole asi mayor importancia a los atributos mas relevantes Otra posibilidad consiste en tratar de determinar o ajustar los pesos con ejemplos conocidos de formacion Finalmente antes de asignar pesos es recomendable identificar y eliminar los atributos que se consideran irrelevantes En sintesis el metodo k displaystyle k nbsp nn se resume en dos algoritmos Algoritmo de formacion editar Para cada ejemplo x f x displaystyle langle x f x rangle nbsp donde x X displaystyle x in X nbsp agregar el ejemplo a la estructura representando los ejemplos de aprendizaje Algoritmo de clasificacion editar Dado un ejemplar x q displaystyle x q nbsp que debe ser clasificado sean x 1 x k displaystyle x 1 x k nbsp los k displaystyle k nbsp vecinos mas cercanos a x q displaystyle x q nbsp en los ejemplos de aprendizaje regresarf x arg max v V i 1 k v f x i displaystyle hat f x leftarrow arg max v in V sum i 1 k v f x i nbsp donde usamos la notacion de corchete de Iverson El valor f x q displaystyle hat f x q nbsp devuelto por el algoritmo como un estimador de f x q displaystyle f x q nbsp es solo el valor mas comun de f displaystyle f nbsp entre los k displaystyle k nbsp vecinos mas cercanos a x q displaystyle x q nbsp Si elegimos k 1 displaystyle k 1 nbsp entonces el vecino mas cercano a x i displaystyle x i nbsp determina su valor Eleccion del k displaystyle k editarLa mejor eleccion de k displaystyle k nbsp depende fundamentalmente de los datos generalmente valores grandes de k displaystyle k nbsp reducen el efecto de ruido en la clasificacion pero crean limites entre clases parecidas Un buen k displaystyle k nbsp puede ser seleccionado mediante una optimizacion de uso El caso especial en que la clase es predicha para ser la clase mas cercana al ejemplo de formacion cuando k 1 displaystyle k 1 nbsp es llamada Nearest Neighbor Algorithm Algoritmo del vecino mas cercano La exactitud de este algoritmo puede ser severamente degradada por la presencia de ruido o caracteristicas irrelevantes o si las escalas de caracteristicas no son consistentes con lo que uno considera importante Muchas investigaciones y esfuerzos fueron puestos en la seleccion y crecimiento de caracteristicas para mejorar las clasificaciones Particularmente una aproximacion en el uso de algoritmos que evolucionan para optimizar caracteristicas de escalabilidad Otra aproximacion consiste en escalar caracteristicas por la informacion mutua de los datos de formacion con las clases de formacion Posibles variantes del algoritmo basico editarVecinos mas cercanos con distancia ponderada editar Se puede ponderar la contribucion de cada vecino de acuerdo a la distancia entre el y el ejemplar a ser clasificado x q displaystyle x q nbsp dando mayor peso a los vecinos mas cercanos Por ejemplo podemos ponderar el voto de cada vecino de acuerdo al cuadrado inverso de sus distanciasf x q arg max v V i 1 k w i v f x i displaystyle hat f x q leftarrow arg max v in V sum i 1 k w i v f x i nbsp dondew i 1 d x q x i 2 displaystyle w i equiv frac 1 d x q x i 2 nbsp De esta manera se ve que no hay riesgo de permitir a todos los ejemplos formacion contribuir a la clasificacion de x q displaystyle x q nbsp ya que al ser muy distantes no tendrian peso asociado La desventaja de considerar todos los ejemplos seria su lenta respuesta metodo global Se quiere siempre tener un metodo local en el que solo los vecinos mas cercanos son considerados Esta mejora es muy efectiva en muchos problemas practicos Es robusto ante los ruidos de datos y suficientemente efectivo en conjuntos de datos grandes Se puede ver que al tomar promedios ponderados de los k displaystyle k nbsp vecinos mas cercanos el algoritmo puede evitar el impacto de ejemplos con ruido aislados Regresion k displaystyle k nn editarComo otras regresiones se trata de un algoritmo para estimar una variable continua X displaystyle X nbsp El conjunto de formacion es una muestra M displaystyle M nbsp de un espacio metrico vectorial V displaystyle V nbsp El modelo formado es una funcion X displaystyle overline X nbsp que a cada elemento v V displaystyle v in V nbsp fuera de M displaystyle M nbsp asigna la media de X m i 1 i k displaystyle lbrace X m i mid 1 leq i leq k rbrace nbsp donde los puntos m i 1 i k displaystyle lbrace m i mid 1 leq i leq k rbrace nbsp son los k displaystyle k nbsp elementos de la muestra mas proximos a v displaystyle v nbsp Referencias editar Fix E Hodges J L 1989 1951 An Important Contribution to Nonparametric Discriminant Analysis and Density Estimation Commentary on Fix and Hodges 1951 International Statistical Review Revue Internationale de Statistique 57 3 233 238 doi 10 2307 1403796 Piryonesi S Madeh El Diraby Tamer E 2020 06 Role of Data Analytics in Infrastructure Asset Management Overcoming Data Size and Quality Problems Journal of Transportation Engineering Part B Pavements en ingles 146 2 04020022 ISSN 2573 5438 doi 10 1061 JPEODX 0000175 Consultado el 7 de agosto de 2020 Hastie Trevor Friedman J H Jerome H 2001 The elements of statistical learning data mining inference and prediction with 200 full color illustrations Springer ISBN 0 387 95284 5 OCLC 46809224 Consultado el 7 de agosto de 2020 nbsp Datos Q1071612 Obtenido de https es wikipedia org w index php title K vecinos mas proximos amp oldid 153688741, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos