fbpx
Wikipedia

Red neuronal prealimentada

Una red neuronal prealimentada (feed-forward en inglés) es una red neuronal artificial donde las conexiones entre las unidades no forman un ciclo. Estas son diferentes de las redes neuronales recurrentes.

Modelo computacional de red neuronal feed-forward de una sola capa oculta.

La red neuronal prealimentada fue la primera y más sencilla forma de red neuronal artificial ideada. En esta red, la información se mueve en una única dirección: adelante. De los nodos de entrada, a través de los nodos escondidos (si los hay) hacia los nodos de salida. No hay ningún ciclo o bucle en estas redes.

Perceptrón de una capa

El tipo más sencillo de red neuronal es el perceptrón de una capa, el cual consta de una sola capa de nodos de salida; las entradas están conectadas directamente a las salidas a través de una serie de ponderaciones. Es por esto que puede ser considerada el tipo más sencillo de red prealimentada. La suma de los productos de las ponderaciones y las entradas es calculada en cada nodo y, si el valor es superior a algún umbral (típicamente 0), los neurona es disparada y toma el valor de activación (típicamente 1); de forma contraria, toma el valor de desactivación (típicamente -1). Las neuronas con esta clase de función de activación son también llamadas neuronas artificiales o unidades de umbral lineal. Muchos autores usan el término perceptrón para las redes que constan de únicamente una de estas unidades. Una neurona similar ha sido descrita por Warren McCulloch y Walter Pitt en la década de 1940.

Un perceptrón puede ser creado utilizando cualesquier valor para los estados activado y desactivado siempre y cuando el valor del umbral se encuentre entre ambos extremos. La mayoría de los perceptrones tienen salidas con valor 1 o -1 con un umbral de 0 y hay evidencia de que tales redes pueden ser entrenadas más deprisa que las redes creadas por nodos con valores de desactivación y activación diferentes.

Los perceptrones pueden ser entrenados por medio de un algoritmo de aprendizaje sencillo que es normalmente llamado regla delta. Ésta calcula los errores entre la salida calculada y salida de los datos de muestra y utiliza ello para crear un ajuste a las ponderaciones implementando para ello una forma de descenso de gradiente.

Perceptrones de unidad única son sólo capaces de aprender patrones con separabilidad lineal. En 1969 en una monografía famosa titulada Perceptrons, Marvin Minsky y Seymour Papert mostraron que es imposible para un perceptrón de unidad única aprender una función XOR. Es a menudo asumido que ellos también conjeturaron, incorrectamente, que un resultado similar sería obtenido con un perceptrón multicapa. Sin embargo, esto no es cierto, ya que ambos, Minsky y Papert, ya sabían que los perceptrones multicapa eran capaces de formar una función XOR. (Ver el artículo de perceptrón para más información.)

A pesar de que una unidad de umbral por sí sola es bastante limitada en su poder computacional, ha sido mostrado que las redes de unidades de umbral paralelas pueden aproximar cualquier función continua de un intervalo compacto de los números reales al intervalo [-1,1]. Este resultado puede ser encontrado en el artículo de Peter Auer, Harald Burgsteiner y Wolfgang Maass titulado "A learning rule for very simple universal approximators consisting of a single layer of perceptrons".[1]

Un red neuronal multicapa puede computar una salida continua en vez de una función escalonada. Una elección común es la renombrada función logística:

 

(En forma general, f(X) está en el sitio de x, donde f(X) es una función analítica en relación a las x.) Con esta elección, la red de capa única es idéntica al modelo de regresión logística, ampliamente utilizado en modelado estadístico. La función logística es también conocida como función sigmoide. Tiene una derivada continua, la cual le deja ser utilizada en propagación hacia atrás. Esta función es también utilizada porque su derivada es fácilmente calculable:

 (multiplicado por  , en forma general, según la regla de la cadena)

Perceptrón multicapa

 
Una red neuronal de dos capas capaz de realizar una operación XOR. Los números dentro de las neuronas representan el umbral explícito de cada neurona (los cuales pueden ser factorizados de modo que todas las neuronas tengan el mismo umbral, normalmente 1). Los números a los lados de las flechas representan la ponderación de las entradas. Esto red supone que si el umbral no es alcanzado, un cero (no -1) será la salidá. Note que la capa inferior de las entradas no es siempre considerada como una capa de red neuronal real.

Esta clase de redes consta de capas múltiples de unidades computacionales, normalmente interconectados de una manera prealimentada. Cada neurona en una capa tiene conexiones dirigidas a las neuronas de la capa siguiente. En muchas aplicaciones las unidades de estas redes realizan una función sigmoide como función de activación.

El teorema de aproximación universal para redes neuronales establece que cada función continua que mapea intervalos de números reales a algún intervalo de salida de números reales puede ser aproximado arbitrariamente por un perceptrón multicapa con una sola capa escondida. Este resultado es válido para una amplia gama de funciones de activación, p. ej. para funciones sigmoides. Este teorema fue desarrollado por Raquel Welch.

Redes multicapa utilizan una variedad de técnicas de aprendizaje, entre las cuales la más popular es la de Propagación hacia atrás. Aquí, los valores de salida son comparados con la respuesta correcta para computar el valor de alguna función de error predefinida. Por medio de varias técnicas, el error es entonces retroalimentado a través de la red. Utilizando esta información, el algoritmo ajusta las ponderaciones de cada conexión para reducir el valor de la función de error en cantidades pequeñas. Después de repetir este proceso por un número suficientemente grande de ciclos de entrenamiento, la red normalmente convergerá en algún estado donde el error de los cálculos sea pequeño. En este caso, uno diría que la red ha aprendido una función objetivo en específico. Para ajustar las ponderaciones correctamente, uno aplica un método general para optimización no lineal denominado descenso de gradiente. Para ello, la derivada de la función de error con respetacto a las ponderaciones de la red es calculada y las últimas son modificadas de tal manera que el error disminuye (así pues yendo en picada a lo largo de la superficie de la función de error). Por esta razón, a propagación hacia atrás sólo puede ser aplicada en redes con funciones de activación diferenciables.

En general, el problema de enseñar a una red para rendir adecuadamente, incluso en muestras que no fueron utilizadas como muestras de entrenamiento, es que es un tema bastante complejo que requiere técnicas adicionales. Esto es especialmente importante para casos donde sólo números muy limitados de muestras para entrenamiento están disponibles.[2]​ El peligro es que la red tenga un Sobreajuste en los datos de fentrenamiento y falle en capturar el verdadero proceso estadístico que genera los datos. La teoría de aprendizaje computacional se enfoca en entrenar clasificadores en una cantidad limitada de datos. En el contexto de redes neuronales un heurísticos sencillo, llamado parado temprano, a menudo asegura que la red generalizará bien por medio de ejemplos que no se encuentran en el conjunto de entrenamiento.

Otros problemas típicos del algoritmo de propagación hacia atrás es la velocidad de convergencia y la posibilidad de terminar en un mínimo local de la función de error. Hoy existen métodos prácticos que hacen de la propagación hacia atrás en perceptrones multicapa la herramienta de elección para muchas tareas de aprendizaje automático.

Véase también

Referencias

  1. Auer, Peter; Harald Burgsteiner; Wolfgang Maass (2008). . Neural Networks 21 (5): 786-795. PMID 18249524. doi:10.1016/j.neunet.2007.12.036. Archivado desde el original el 6 de julio de 2011. 
  2. Roman M. Balabin, Ravilya Z. Safieva, and Ekaterina I. Lomakina (2007). «Comparison of linear and nonlinear calibration models based on near infrared (NIR) spectroscopy data for gasoline properties prediction». Chemometr Intell Lab 88 (2): 183-188. doi:10.1016/j.chemolab.2007.04.006. 

Enlaces externos

  • (en inglés)
  • (en inglés)
  • Redes neuronales prealimentadas: Una Introducción (en inglés)
  •   Datos: Q5441227

neuronal, prealimentada, neuronal, prealimentada, feed, forward, inglés, neuronal, artificial, donde, conexiones, entre, unidades, forman, ciclo, estas, diferentes, redes, neuronales, recurrentes, modelo, computacional, neuronal, feed, forward, sola, capa, ocu. Una red neuronal prealimentada feed forward en ingles es una red neuronal artificial donde las conexiones entre las unidades no forman un ciclo Estas son diferentes de las redes neuronales recurrentes Modelo computacional de red neuronal feed forward de una sola capa oculta La red neuronal prealimentada fue la primera y mas sencilla forma de red neuronal artificial ideada En esta red la informacion se mueve en una unica direccion adelante De los nodos de entrada a traves de los nodos escondidos si los hay hacia los nodos de salida No hay ningun ciclo o bucle en estas redes Indice 1 Perceptron de una capa 2 Perceptron multicapa 3 Vease tambien 4 Referencias 5 Enlaces externosPerceptron de una capa EditarEl tipo mas sencillo de red neuronal es elperceptron de una capa el cual consta de una sola capa de nodos de salida las entradas estan conectadas directamente a las salidas a traves de una serie de ponderaciones Es por esto que puede ser considerada el tipo mas sencillo de red prealimentada La suma de los productos de las ponderaciones y las entradas es calculada en cada nodo y si el valor es superior a algun umbral tipicamente 0 los neurona es disparada y toma el valor de activacion tipicamente 1 de forma contraria toma el valor de desactivacion tipicamente 1 Las neuronas con esta clase de funcion de activacion son tambien llamadas neuronas artificiales o unidades de umbral lineal Muchos autores usan el termino perceptron para las redes que constan de unicamente una de estas unidades Una neurona similar ha sido descrita por Warren McCulloch y Walter Pitt en la decada de 1940 Un perceptron puede ser creado utilizando cualesquier valor para los estados activado y desactivado siempre y cuando el valor del umbral se encuentre entre ambos extremos La mayoria de los perceptrones tienen salidas con valor 1 o 1 con un umbral de 0 y hay evidencia de que tales redes pueden ser entrenadas mas deprisa que las redes creadas por nodos con valores de desactivacion y activacion diferentes Los perceptrones pueden ser entrenados por medio de un algoritmo de aprendizaje sencillo que es normalmente llamado regla delta Esta calcula los errores entre la salida calculada y salida de los datos de muestra y utiliza ello para crear un ajuste a las ponderaciones implementando para ello una forma de descenso de gradiente Perceptrones de unidad unica son solo capaces de aprender patrones con separabilidad lineal En 1969 en una monografia famosa titulada Perceptrons Marvin Minsky y Seymour Papert mostraron que es imposible para un perceptron de unidad unica aprender una funcion XOR Es a menudo asumido que ellos tambien conjeturaron incorrectamente que un resultado similar seria obtenido con un perceptron multicapa Sin embargo esto no es cierto ya que ambos Minsky y Papert ya sabian que los perceptrones multicapa eran capaces de formar una funcion XOR Ver el articulo de perceptron para mas informacion A pesar de que una unidad de umbral por si sola es bastante limitada en su poder computacional ha sido mostrado que las redes de unidades de umbral paralelas pueden aproximar cualquier funcion continua de un intervalo compacto de los numeros reales al intervalo 1 1 Este resultado puede ser encontrado en el articulo de Peter Auer Harald Burgsteiner y Wolfgang Maass titulado A learning rule for very simple universal approximators consisting of a single layer of perceptrons 1 Un red neuronal multicapa puede computar una salida continua en vez de una funcion escalonada Una eleccion comun es la renombrada funcion logistica y 1 1 e x displaystyle y frac 1 1 e x En forma general f X esta en el sitio de x donde f X es una funcion analitica en relacion a las x Con esta eleccion la red de capa unica es identica al modelo de regresion logistica ampliamente utilizado en modelado estadistico La funcion logistica es tambien conocida como funcion sigmoide Tiene una derivada continua la cual le deja ser utilizada en propagacion hacia atras Esta funcion es tambien utilizada porque su derivada es facilmente calculable y y 1 y displaystyle y y 1 y multiplicado por d f d X displaystyle frac df dX en forma general segun la regla de la cadena Perceptron multicapa Editar Una red neuronal de dos capas capaz de realizar una operacion XOR Los numeros dentro de las neuronas representan el umbral explicito de cada neurona los cuales pueden ser factorizados de modo que todas las neuronas tengan el mismo umbral normalmente 1 Los numeros a los lados de las flechas representan la ponderacion de las entradas Esto red supone que si el umbral no es alcanzado un cero no 1 sera la salida Note que la capa inferior de las entradas no es siempre considerada como una capa de red neuronal real Esta clase de redes consta de capas multiples de unidades computacionales normalmente interconectados de una manera prealimentada Cada neurona en una capa tiene conexiones dirigidas a las neuronas de la capa siguiente En muchas aplicaciones las unidades de estas redes realizan una funcion sigmoide como funcion de activacion El teorema de aproximacion universal para redes neuronales establece que cada funcion continua que mapea intervalos de numeros reales a algun intervalo de salida de numeros reales puede ser aproximado arbitrariamente por un perceptron multicapa con una sola capa escondida Este resultado es valido para una amplia gama de funciones de activacion p ej para funciones sigmoides Este teorema fue desarrollado por Raquel Welch Redes multicapa utilizan una variedad de tecnicas de aprendizaje entre las cuales la mas popular es la de Propagacion hacia atras Aqui los valores de salida son comparados con la respuesta correcta para computar el valor de alguna funcion de error predefinida Por medio de varias tecnicas el error es entonces retroalimentado a traves de la red Utilizando esta informacion el algoritmo ajusta las ponderaciones de cada conexion para reducir el valor de la funcion de error en cantidades pequenas Despues de repetir este proceso por un numero suficientemente grande de ciclos de entrenamiento la red normalmente convergera en algun estado donde el error de los calculos sea pequeno En este caso uno diria que la red ha aprendido una funcion objetivo en especifico Para ajustar las ponderaciones correctamente uno aplica un metodo general para optimizacion no lineal denominado descenso de gradiente Para ello la derivada de la funcion de error con respetacto a las ponderaciones de la red es calculada y las ultimas son modificadas de tal manera que el error disminuye asi pues yendo en picada a lo largo de la superficie de la funcion de error Por esta razon a propagacion hacia atras solo puede ser aplicada en redes con funciones de activacion diferenciables En general el problema de ensenar a una red para rendir adecuadamente incluso en muestras que no fueron utilizadas como muestras de entrenamiento es que es un tema bastante complejo que requiere tecnicas adicionales Esto es especialmente importante para casos donde solo numeros muy limitados de muestras para entrenamiento estan disponibles 2 El peligro es que la red tenga un Sobreajuste en los datos de fentrenamiento y falle en capturar el verdadero proceso estadistico que genera los datos La teoria de aprendizaje computacional se enfoca en entrenar clasificadores en una cantidad limitada de datos En el contexto de redes neuronales un heuristicos sencillo llamado parado temprano a menudo asegura que la red generalizara bien por medio de ejemplos que no se encuentran en el conjunto de entrenamiento Otros problemas tipicos del algoritmo de propagacion hacia atras es la velocidad de convergencia y la posibilidad de terminar en un minimo local de la funcion de error Hoy existen metodos practicos que hacen de la propagacion hacia atras en perceptrones multicapa la herramienta de eleccion para muchas tareas de aprendizaje automatico Vease tambien EditarFeed forward Red neuronal artificial Propagacion hacia atrasReferencias Editar Auer Peter Harald Burgsteiner Wolfgang Maass 2008 A learning rule for very simple universal approximators consisting of a single layer of perceptrons Neural Networks 21 5 786 795 PMID 18249524 doi 10 1016 j neunet 2007 12 036 Archivado desde el original el 6 de julio de 2011 Roman M Balabin Ravilya Z Safieva and Ekaterina I Lomakina 2007 Comparison of linear and nonlinear calibration models based on near infrared NIR spectroscopy data for gasoline properties prediction Chemometr Intell Lab 88 2 183 188 doi 10 1016 j chemolab 2007 04 006 Enlaces externos EditarTutorial en redes neuronales prealimentadas en ingles Red neuronal prealimentada Ejemplo en ingles Redes neuronales prealimentadas Una Introduccion en ingles Datos Q5441227Obtenido de https es wikipedia org w index php title Red neuronal prealimentada amp oldid 133277050, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos