fbpx
Wikipedia

Máquinas de vectores de soporte

Las máquinas de vectores de soporte o máquinas de vector soporte (del inglés support-vector machines, SVM) son un conjunto de algoritmos de aprendizaje supervisado desarrollados por Vladimir Vapnik y su equipo en los laboratorios de AT&T Bell.

Estos métodos están propiamente relacionados con problemas de clasificación y regresión. Dado un conjunto de ejemplos de entrenamiento (de muestras) podemos etiquetar las clases y entrenar una SVM para construir un modelo que prediga la clase de una nueva muestra. Intuitivamente, una SVM es un modelo que representa a los puntos de muestra en el espacio, separando las clases a 2 espacios lo más amplios posibles mediante un hiperplano de separación definido como el vector entre los 2 puntos, de las 2 clases, más cercanos al que se llama vector soporte. Cuando las nuevas muestras se ponen en correspondencia con dicho modelo, en función de los espacios a los que pertenezcan, pueden ser clasificadas a una o la otra clase.

Más formalmente, una SVM construye un hiperplano o conjunto de hiperplanos en un espacio de dimensionalidad muy alta (o incluso infinita) que puede ser utilizado en problemas de clasificación o regresión. Una buena separación entre las clases permitirá una clasificación correcta.

Idea básica

Dado un conjunto de puntos, subconjunto de un conjunto mayor (espacio), en el que cada uno de ellos pertenece a una de dos posibles categorías, un algoritmo basado en SVM construye un modelo capaz de predecir si un punto nuevo (cuya categoría desconocemos) pertenece a una categoría o a la otra.

Como en la mayoría de los métodos de clasificación supervisada, los datos de entrada (los puntos) son vistos como un vector p-dimensional (una lista ordenada de p números).

La SVM busca un hiperplano que separe de forma óptima a los puntos de una clase de la de otra, que eventualmente han podido ser previamente proyectados a un espacio de dimensionalidad superior.

En ese concepto de "separación óptima" es donde reside la característica fundamental de las SVM: este tipo de algoritmos buscan el hiperplano que tenga la máxima distancia (margen) con los puntos que estén más cerca de él mismo. Por eso también a veces se les conoce a las SVM como clasificadores de margen máximo. De esta forma, los puntos del vector que son etiquetados con una categoría estarán a un lado del hiperplano y los casos que se encuentren en la otra categoría estarán al otro lado.

Los algoritmos SVM pertenecen a la familia de los clasificadores lineales. También pueden ser considerados un caso especial de la regularización de Tikhonov.

En la literatura de las SVM, se llama atributo a la variable predictora y característica a un atributo transformado que es usado para definir el hiperplano. La elección de la representación más adecuada del universo estudiado, se realiza mediante un proceso denominado selección de características.

Al vector formado por los puntos más cercanos al hiperplano se le llama vector de soporte.

Los modelos basados en SVM están estrechamente relacionados con las redes neuronales. Usando una función kernel, resultan un método de entrenamiento alternativo para clasificadores polinomiales, funciones de base radial y perceptrón multicapa.

Ejemplo en 2–dimensiones

En el siguiente ejemplo idealizado para 2-dimensiones, la representación de los datos a clasificar se realiza en el plano x-y. El algoritmo SVM trata de encontrar un hiperplano 1-dimensional (en el ejemplo que nos ocupa es una recta) que une a las variables predictoras y constituye el límite que define si un elemento de entrada pertenece a una categoría o a la otra.

Existe un número infinito de posibles hiperplanos (líneas) que realicen la clasificación pero, ¿cuál es la mejor y cómo la definimos?

 
Hay infinitos hiperplanos posibles
 
H1 no separa las clases. H2 las separa, pero solo con un margen pequeño. H3 las separa con el margen máximo.

La mejor solución es aquella que permita un margen máximo entre los elementos de las dos categorías.

Se denominan vectores de soporte a los puntos que conforman las dos líneas paralelas al hiperplano, siendo la distancia entre ellas (margen) la mayor posible.

Soft margin: Errores de entrenamiento

Idealmente, el modelo basado en SVM debería producir un hiperplano que separe completamente los datos del universo estudiado en dos categorías. Sin embargo, una separación perfecta no siempre es posible y, si lo es, el resultado del modelo no puede ser generalizado para otros datos. Esto se conoce como sobreajuste (overfitting).

Con el fin de permitir cierta flexibilidad, las SVM manejan un parámetro C que controla la compensación entre errores de entrenamiento y los márgenes rígidos, creando así un margen blando (soft margin) que permita algunos errores en la clasificación a la vez que los penaliza.

Función Kernel

La manera más simple de realizar la separación es mediante una línea recta, un plano recto o un hiperplano N-dimensional.

Desafortunadamente los universos a estudiar no se suelen presentar en casos idílicos de dos dimensiones como en el ejemplo anterior, sino que un algoritmo SVM debe tratar con a) más de dos variables predictoras, b) curvas no lineales de separación, c) casos donde los conjuntos de datos no pueden ser completamente separados, d) clasificaciones en más de dos categorías.

Debido a las limitaciones computacionales de las máquinas de aprendizaje lineal, éstas no pueden ser utilizadas en la mayoría de las aplicaciones del mundo real. La representación por medio de funciones Kernel ofrece una solución a este problema, proyectando la información a un espacio de características de mayor dimensión el cual aumenta la capacidad computacional de la máquinas de aprendizaje lineal. Es decir, mapearemos el espacio de entradas X a un nuevo espacio de características de mayor dimensionalidad (Hilbert):

F = {φ(x)|x ∈ X}
x = {x1, x2, · · ·, xn} → φ(x) = {φ1(x), φ2(x), · · ·, φn(x)}

Tipos de funciones Kernel (Núcleo)

  • Polinomial-homogénea: K(xi, xj) = (xi·xj)n
 
  • Perceptron: K(xi, xj)= || xi-xj ||
 
  • Función de base radial Gaussiana: separado por un hiperplano en el espacio transformado.
 
 
  • Sigmoid: K(xi, xj)=tanh(xi· xj−θ)

SVR. Regresión

Una nueva versión de SVM para regresión fue propuesta en 1996 por Vladimir Vapnik, Harris Drucker, Chris Burges, Linda Kaufman y Alex Smola.[nota].

La idea básica de SVR consiste en realizar un mapeo de los datos de entrenamiento x ∈ X, a un espacio de mayor dimensión F a través de un mapeo no lineal φ: X → F, donde podemos realizar una regresión lineal.

SVM Multiclase

Hay dos filosofías básicas para resolver el problema de querer clasificar los datos en más de dos categorías:

  • a) cada categoría es dividida en otras y todas son combinadas.
  • b) se construyen k(k-1) / 2 modelos donde k es el número de categorías.

Referencias

Enlaces externos

  • (en español) Modelo SVM
  • (en inglés) , DTREG, Software For Predictive Modeling and Forecasting
  • (en inglés) [2], Electronic Statistics Textbook
  • (en inglés) www.kernel-machines.org, información general y material de investigación.
  • (en inglés) , novedades, enlace y códigos relacionados con las máquinas de soporte vectorial.
  • (en inglés) , implementación de SVM, con variantes para aprendizaje supervisado, y para semisupervisado transductivo. Liberado para investigación.
  • (en inglés) SVMlin, otra implementación de SVM. Liberado bajo licencia GPL.
  • (en inglés) svmtutorial.online


  •   Datos: Q282453

máquinas, vectores, soporte, máquinas, vectores, soporte, máquinas, vector, soporte, inglés, support, vector, machines, conjunto, algoritmos, aprendizaje, supervisado, desarrollados, vladimir, vapnik, equipo, laboratorios, bell, estos, métodos, están, propiame. Las maquinas de vectores de soporte o maquinas de vector soporte del ingles support vector machines SVM son un conjunto de algoritmos de aprendizaje supervisado desarrollados por Vladimir Vapnik y su equipo en los laboratorios de AT amp T Bell Estos metodos estan propiamente relacionados con problemas de clasificacion y regresion Dado un conjunto de ejemplos de entrenamiento de muestras podemos etiquetar las clases y entrenar una SVM para construir un modelo que prediga la clase de una nueva muestra Intuitivamente una SVM es un modelo que representa a los puntos de muestra en el espacio separando las clases a 2 espacios lo mas amplios posibles mediante un hiperplano de separacion definido como el vector entre los 2 puntos de las 2 clases mas cercanos al que se llama vector soporte Cuando las nuevas muestras se ponen en correspondencia con dicho modelo en funcion de los espacios a los que pertenezcan pueden ser clasificadas a una o la otra clase Mas formalmente una SVM construye un hiperplano o conjunto de hiperplanos en un espacio de dimensionalidad muy alta o incluso infinita que puede ser utilizado en problemas de clasificacion o regresion Una buena separacion entre las clases permitira una clasificacion correcta Indice 1 Idea basica 1 1 Ejemplo en 2 dimensiones 1 2 Soft margin Errores de entrenamiento 2 Funcion Kernel 2 1 Tipos de funciones Kernel Nucleo 3 SVR Regresion 4 SVM Multiclase 5 Referencias 6 Enlaces externosIdea basica EditarDado un conjunto de puntos subconjunto de un conjunto mayor espacio en el que cada uno de ellos pertenece a una de dos posibles categorias un algoritmo basado en SVM construye un modelo capaz de predecir si un punto nuevo cuya categoria desconocemos pertenece a una categoria o a la otra Como en la mayoria de los metodos de clasificacion supervisada los datos de entrada los puntos son vistos como un vector p dimensional una lista ordenada de p numeros La SVM busca un hiperplano que separe de forma optima a los puntos de una clase de la de otra que eventualmente han podido ser previamente proyectados a un espacio de dimensionalidad superior En ese concepto de separacion optima es donde reside la caracteristica fundamental de las SVM este tipo de algoritmos buscan el hiperplano que tenga la maxima distancia margen con los puntos que esten mas cerca de el mismo Por eso tambien a veces se les conoce a las SVM como clasificadores de margen maximo De esta forma los puntos del vector que son etiquetados con una categoria estaran a un lado del hiperplano y los casos que se encuentren en la otra categoria estaran al otro lado Los algoritmos SVM pertenecen a la familia de los clasificadores lineales Tambien pueden ser considerados un caso especial de la regularizacion de Tikhonov En la literatura de las SVM se llama atributo a la variable predictora y caracteristica a un atributo transformado que es usado para definir el hiperplano La eleccion de la representacion mas adecuada del universo estudiado se realiza mediante un proceso denominado seleccion de caracteristicas Al vector formado por los puntos mas cercanos al hiperplano se le llama vector de soporte Los modelos basados en SVM estan estrechamente relacionados con las redes neuronales Usando una funcion kernel resultan un metodo de entrenamiento alternativo para clasificadores polinomiales funciones de base radial y perceptron multicapa Ejemplo en 2 dimensiones Editar En el siguiente ejemplo idealizado para 2 dimensiones la representacion de los datos a clasificar se realiza en el plano x y El algoritmo SVM trata de encontrar un hiperplano 1 dimensional en el ejemplo que nos ocupa es una recta que une a las variables predictoras y constituye el limite que define si un elemento de entrada pertenece a una categoria o a la otra Existe un numero infinito de posibles hiperplanos lineas que realicen la clasificacion pero cual es la mejor y como la definimos Hay infinitos hiperplanos posibles H1 no separa las clases H2 las separa pero solo con un margen pequeno H3 las separa con el margen maximo La mejor solucion es aquella que permita un margen maximo entre los elementos de las dos categorias Se denominan vectores de soporte a los puntos que conforman las dos lineas paralelas al hiperplano siendo la distancia entre ellas margen la mayor posible Soft margin Errores de entrenamiento Editar Idealmente el modelo basado en SVM deberia producir un hiperplano que separe completamente los datos del universo estudiado en dos categorias Sin embargo una separacion perfecta no siempre es posible y si lo es el resultado del modelo no puede ser generalizado para otros datos Esto se conoce como sobreajuste overfitting Con el fin de permitir cierta flexibilidad las SVM manejan un parametro C que controla la compensacion entre errores de entrenamiento y los margenes rigidos creando asi un margen blando soft margin que permita algunos errores en la clasificacion a la vez que los penaliza Funcion Kernel EditarLa manera mas simple de realizar la separacion es mediante una linea recta un plano recto o un hiperplano N dimensional Desafortunadamente los universos a estudiar no se suelen presentar en casos idilicos de dos dimensiones como en el ejemplo anterior sino que un algoritmo SVM debe tratar con a mas de dos variables predictoras b curvas no lineales de separacion c casos donde los conjuntos de datos no pueden ser completamente separados d clasificaciones en mas de dos categorias Debido a las limitaciones computacionales de las maquinas de aprendizaje lineal estas no pueden ser utilizadas en la mayoria de las aplicaciones del mundo real La representacion por medio de funciones Kernel ofrece una solucion a este problema proyectando la informacion a un espacio de caracteristicas de mayor dimension el cual aumenta la capacidad computacional de la maquinas de aprendizaje lineal Es decir mapearemos el espacio de entradas X a un nuevo espacio de caracteristicas de mayor dimensionalidad Hilbert F f x x X dd dd x x1 x2 xn f x f1 x f2 x fn x dd dd dd Tipos de funciones Kernel Nucleo Editar Polinomial homogenea K xi xj xi xj n Perceptron K xi xj xi xj Funcion de base radial Gaussiana separado por un hiperplano en el espacio transformado K x i x j e x i x j 2 s 2 displaystyle K x i x j e frac x i x j 2 cdot sigma 2 dd dd Sigmoid K xi xj tanh xi xj 8 SVR Regresion EditarUna nueva version de SVM para regresion fue propuesta en 1996 por Vladimir Vapnik Harris Drucker Chris Burges Linda Kaufman y Alex Smola nota La idea basica de SVR consiste en realizar un mapeo de los datos de entrenamiento x X a un espacio de mayor dimension F a traves de un mapeo no lineal f X F donde podemos realizar una regresion lineal SVM Multiclase EditarHay dos filosofias basicas para resolver el problema de querer clasificar los datos en mas de dos categorias a cada categoria es dividida en otras y todas son combinadas b se construyen k k 1 2 modelos donde k es el numero de categorias Referencias EditarEnlaces externos Editar en espanol Modelo SVM en ingles 1 DTREG Software For Predictive Modeling and Forecasting en ingles 2 Electronic Statistics Textbook en ingles www kernel machines org informacion general y material de investigacion en ingles www support vector net novedades enlace y codigos relacionados con las maquinas de soporte vectorial en ingles SVM light implementacion de SVM con variantes para aprendizaje supervisado y para semisupervisado transductivo Liberado para investigacion en ingles SVMlin otra implementacion de SVM Liberado bajo licencia GPL en ingles svmtutorial online Datos Q282453 Obtenido de https es wikipedia org w index php title Maquinas de vectores de soporte amp oldid 144346272, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos