fbpx
Wikipedia

Red neuronal artificial

Las redes neuronales artificiales (también conocidas como sistemas conexionistas) son un modelo computacional el que fue evolucionando a partir de diversas aportaciones científicas que están registradas en la historia.[1]​ Consiste en un conjunto de unidades, llamadas neuronas artificiales, conectadas entre sí para transmitirse señales. La información de entrada atraviesa la red neuronal (donde se somete a diversas operaciones) produciendo unos valores de salida.

Una red neuronal artificial es un grupo interconectado de nodos similar a la vasta red de neuronas en un cerebro biológico. Cada nodo circular representa una neurona artificial y cada flecha representa una conexión desde la salida de una neurona a la entrada de otra.

Cada neurona está conectada con otras a través de unos enlaces. En estos enlaces el valor de salida de la neurona anterior es multiplicado por un valor de peso. Estos pesos en los enlaces pueden incrementar o inhibir el estado de activación de las neuronas adyacentes. Del mismo modo, a la salida de la neurona, puede existir una función limitadora o umbral, que modifica el valor resultado o impone un límite que no se debe sobrepasar antes de propagarse a otra neurona. Esta función se conoce como función de activación.

Estos sistemas aprenden y se forman a sí mismos, en lugar de ser programados de forma explícita, y sobresalen en áreas donde la detección de soluciones o características es difícil de expresar con la programación convencional. Para realizar este aprendizaje automático, normalmente, se intenta minimizar una función de pérdida que evalúa la red en su total. Los valores de los pesos de las neuronas se van actualizando buscando reducir el valor de la función de pérdida. Este proceso se realiza mediante la propagación hacia atrás.

El objetivo de la red neuronal es resolver los problemas de la misma manera que el cerebro humano, aunque las redes neuronales son más abstractas. Las redes neuronales actuales suelen contener desde unos miles a unos pocos millones de unidades neuronales.

Nuevas investigaciones sobre el cerebro a menudo estimulan la creación de nuevos patrones en las redes neuronales. Un nuevo enfoque está utilizando conexiones que se extienden mucho más allá y capas de procesamiento de enlace en lugar de estar siempre localizado en las neuronas adyacentes. Otra investigación está estudiando los diferentes tipos de señal en el tiempo que los axones se propagan, como el aprendizaje profundo, interpola una mayor complejidad que un conjunto de variables booleanas que son simplemente encendido o apagado.

Las redes neuronales se han utilizado para resolver una amplia variedad de tareas, como la visión por computador y el reconocimiento de voz, que son difíciles de resolver usando la ordinaria programación basado en reglas. Históricamente, el uso de modelos de redes neuronales marcó un cambio de dirección a finales de los años ochenta de alto nivel, que se caracteriza por sistemas expertos con conocimiento incorporado en si-entonces las reglas, a bajo nivel de aprendizaje automático, caracterizado por el conocimiento incorporado en los parámetros de un modelo cognitivo con algún sistema dinámico.

Historia

Warren McCulloch y Walter Pitts [2]​ (1943) crearon un modelo informático para redes neuronales, que se llama lógica umbral, que se base en las matemáticas y los algoritmos. Este modelo señaló el camino para que la investigación de redes neuronales se divida en dos enfoques distintos. Un enfoque se centró en los procesos biológicos en el cerebro y el otro se centró en la aplicación de neuronales para la inteligencia artificial.

Aprendizaje de Hebb

A finales de la década de 1940 el psicólogo Donald Hebb[3][4]​ creó una hipótesis de aprendizaje basado en el mecanismo de plasticidad neuronal que ahora se conoce como aprendizaje de Hebb. Aprendizaje de Hebb se considera que es un "típico" de aprendizaje no supervisado y sus variantes posteriores fueron los primeros modelos de la potenciación a largo plazo. Los investigadores empezaron a aplicar estas ideas a los modelos computacionales en 1948 con la sugerencia de Turing, que el córtex humano infantil es lo que llamaba "máquina desorganizada" (también conocido como "máqina Turing Tipo B").[5][6]

Farley y Wesley A. Clark[7]​ (1954) al principio utilizaron máquinas computacionales, que entonces se llamaban "calculadoras", para simular una red de Hebb en el MIT. Otras simulaciones de redes neuronales por computadora han sido creadas por Rochester, Holanda, Hábito y Duda (1956).[8]

Frank Rosenblatt[9][10]​ (1958) creó el perceptrón, un algoritmo de reconocimiento de patrones basado en una red de aprendizaje de computadora de dos capas, que utilizaba adición y sustracción simples. Con la notación matemática, Rosenblatt también describe circuitería que no está en el perceptrón básico, tal como el circuito de o-exclusiva, un circuito que no se pudo procesar por redes neuronales antes de la creación del algoritmo de propagación hacia atrás por Paul Werbos (1975).[11]

En 1959, un modelo biológico propuesto por dos laureados de los Premios Nobel, David H. Hubel y Torsten Wiesel, estaba basado en su descubrimiento de dos tipos de células en la corteza visual primaria: células simples y células complejas.[12]

El primer reporte sobre redes funcionales multicapas fue publicado en 1965 por Ivakhnenko y Lapa, y se conoce como el método de agrupamiento para el manejo de datos.[13][14][15]

La investigación de redes neuronales se estancó después de la publicación de la investigación de aprendizaje automático por Marvin Minsky y Seymour Papert (1969),[16]​ que descubrió dos cuestiones fundamentales con las máquinas computacionales que procesan las redes neuronales. La primera fue que los perceptrones básicos eran incapaces de procesar el circuito de o-exclusivo. La segunda cuestión importante era que los ordenadores no tenían suficiente poder de procesamiento para manejar eficazmente el gran tiempo de ejecución requerido por las grandes redes neuronales.

Propagación hacia atrás y el resurgimiento

Un avance clave posterior fue el algoritmo de propagación hacia atrás que resuelve eficazmente el problema de o-exclusivo, y en general el problema del entrenamiento rápido de redes neuronales de múltiples capas (Werbos 1975). El proceso de propagación hacia atrás utiliza la diferencia entre el resultado producido y el resultado deseado para cambiar los "pesos" de las conexiones entre las neuronas artificiales.[11]

A mediados de la década de 1980, el procesamiento distribuido en paralelo se hizo popular con el nombre conexionismo. El libro de David E. Rumelhart y James McClelland (1986) proporcionan una exposición completa de la utilización de conexionismo en los ordenadores para simular procesos neuronales.[17]

Las redes neuronales, tal como se utilizan en la inteligencia artificial, han sido consideradas tradicionalmente como modelos simplificados de procesamiento neuronal en el cerebro, a pesar de que la relación entre este modelo y la arquitectura biológica del cerebro se debate; no está claro en qué medida las redes neuronales artificiales reflejan el funcionamiento cerebral.

Máquinas de soporte vectorial y otros métodos mucho más simples, tales como los clasificadores lineales, alcanzaron gradualmente popularidad en el aprendizaje automático. No obstante, el uso de redes neuronales ha cambiado algunos campos, tales como la predicción de las estructuras de las proteínas.[18][19]

En 1992,fue introducido el max-pooling (una forma de submuestreo, en la que se divide los datos en grupos de tamaños iguales, que no tienen elementos en común, y se transmite solamente el valor máximo de cada grupo)para ayudar con el reconocimiento de objetos tri-dimensionales.[20][21][22]

En 2010, el uso de max-pooling en el entrenamiento por propagación hacia atrás fue acelerado por los GPUs, y se demostró que ofrece mejor rendimiento que otros tipos de agrupamiento.[23]

El problema del desvanecimiento del gradiente afecta las redes neuronales prealimentadas de múltiples capas, que usan la propagación hacia atrás, y también los redes neuronales recurrentes (RNNs).[24][25]​ Aunque los errores se propagan de una capa a otra, disminuyen exponencialmente con el número de capas, y eso impide el ajuste hacia atrás de los pesos de las neuronas basado en esos errores. Las redes profundas se ven particularmente afectadas.

Para vencer este problema, Schmidhuber adoptaba una jerarquía multicapa de redes (1992) pre entrenados, una capa a la vez, por aprendizaje no supervisado, y refinado por propagación hacia atrás.[26]​ Behnke (2003) contaba solamente con el signo del gradiente (Rprop)[27]​ tratándose de problemas tales como la reconstrucción de imágenes y la localización de caras.

Como retos anteriores en redes neuronales profundas de capacitación se resolvieron con métodos como pre-entrenamiento no supervisado y potencia de cálculo incrementada a través del uso de las GPU y la computación distribuida, las redes neuronales se desplegaron de nuevo a gran escala, sobre todo en problemas de procesamiento de imágenes y de reconocimiento visual. Esto se conoció como "aprendizaje profundo", aunque el aprendizaje profundo no es estrictamente sinónimo de redes neuronales profundas.

Diseños basados en Hardware

Se crearon en CMOS dispositivos de cómputo para la simulación biofísica al igual que para la cómputo neuromórfico. Nanodispositivos[28]​ para análisis de componentes principales de escala muy grande y convolución pueden crear una clase nueva de cómputo neuronal, porque son fundamentalmente analógicos en vez de digitales (aunque las primeras implementaciones puedan utilizar dispositivos digitales).[29]​ Ciresan y sus cólegos (2010)[30]​ en el grupo de Schmidhuber mostraron que, a pesar del problema del desvanecimiento del gradiente, los GPUs hacen factible la propagación hacia atrás para las redes neuronales prealimentadas con múltiples capas.

Mejoras desde 2006

Se han creado dispositivos computacionales en el CMOS, tanto para la simulación biofísica como para computación neuromórfica. Los esfuerzos más recientes se muestran prometedores para la creación de nanodispositivos[31]​ para análisis de componentes principales de gran escala. Si tiene éxito, se crearía una nueva clase de computación neuronal, ya que depende de aprendizaje automático en lugar de la programación y porque es fundamentalmente analógico en lugar de digital a pesar de que las primeras instancias pueden ser de hecho con los dispositivos digitales CMOS.[32]

Entre 2009 y 2012, las redes neuronales recurrentes y redes neuronales profundas feedforward desarrollados en el grupo de investigación de Jürgen Schmidhuber en el laboratorio suizo de IA IDSIA han ganado ocho concursos internacionales de reconocimiento de patrones y aprendizaje automático. Por ejemplo, la memoria bi-direccional y multidimensional de largo a corto plazo (LSTM) de Alex Graves ha ganado tres competiciones en el reconocimiento de escritura conectada en Conferencia Internacional sobre Análisis de documentos y Reconocimiento (ICDAR) del 2009, sin ningún conocimiento previo acerca de los tres idiomas diferentes que se pueden aprender.

Implementaciones de este método basadas en unidades de procesamiento gráfico rápidas, hechos por Dan Ciresan y sus colegas de IDSIA han ganado varios concursos de reconocimiento de patrones, incluyendo la Competición de Reconocimiento de Señales de Tráfico del 2011,[33]​ el desafío de ISBI 2012 de segmentación de estructuras neuronales en series de imágenes de Microscopía Electrónica,[34]​ y otros. Sus redes neuronales también fueron las primeras reconocedoras artificiales de patrones en lograr un rendimiento superior al humano en los puntos de referencia importantes, tales como el reconocimiento de señales de tráfico (IJCNN 2012) o el problema de clasificación de dígitos escritos a mano.

Arquitecturas profundas altamente no lineales similares a las del 1980 Neocognitrón por Kunihiko Fukushima y la "arquitectura estándar de la visión", inspirados en las células simples y complejas identificadas por David H. Hubel y Torsten Wiesel en la corteza visual, pueden también ser pre-formados por métodos no supervisados en el laboratorio de la universidad de Toronto. Un equipo de este laboratorio ganó un concurso en 2012 patrocinado por Merck para el diseño de software para ayudar a encontrar moléculas que podrían conducir a nuevos medicamentos.

Modelos

Los modelos de redes neuronales en la inteligencia artificial se refieren generalmente a las redes neuronales artificiales (RNA); estos son modelos matemáticos esencialmente simples que definen una función f:X→Y o una distribución más X o ambos X e Y. Pero a veces los modelos también están íntimamente asociadas con un algoritmo de aprendizaje en particular o regla de aprendizaje. Un uso común de la frase "modelo ANN" es en realidad la definición de una clase de tales funciones (donde los miembros de la clase se obtiene variando parámetros, los pesos de conexión, o específicos de la arquitectura, tales como el número de neuronas o su conectividad).

Función de red

La palabra red en el término "red neuronal artificial" se refiere a las interconexiones entre las neuronas en las diferentes capas de cada sistema. Un sistema ejemplar tiene tres capas. La primera capa tiene neuronas de entrada que envían datos a través de las sinapsis a la segunda capa de neuronas, y luego a través de más sinapsis a la tercera capa de neuronas de salida. Los sistemas más complejos tendrán más capas, algunos aumentando las de entrada y de salida de neuronas. Las sinapsis almacenan parámetros llamados "pesos" que manipulan los datos en los cálculos.

Un RNA se define típicamente por tres tipos de parámetros:

1. El patrón de interconexión entre las diferentes capas de neuronas

2. El proceso de aprendizaje para la actualización de los pesos de las interconexiones

3. La función de activación que convierte las entradas ponderadas de una neurona a su activación a la salida.

Matemáticamente, la función de red de una neurona   se define como una composición de otras funciones  . Este se representa como una estructura de red, con flechas que representan las dependencias entre variables.Un tipo ampliamente utilizado de la composición es la suma ponderada no lineal , donde , dónde k (denominado comúnmente como la función de activación[35]​) es una función predefinida, como la tangente hiperbólica o función sigmoide . La característica importante de la función de activación es que proporciona una transición suave como valores de entrada de cambio, es decir, un pequeño cambio en la entrada produce un pequeño cambio en la producción. Será conveniente para la siguiente para referirse a una colección de funciones  simplemente como un vector   .

Esta cifra representa una descomposición de tales  , Con las dependencias entre las variables indicadas por las flechas. Estos pueden ser interpretados de dos maneras.

La primera vista es la vista funcional: la entrada   se transforma en un vector de 3 dimensiones  , Que se transforma a continuación en un vector de 2 dimensiones  , Que es finalmente transformado en  . Este punto de vista se encuentra más comúnmente en el contexto de la optimización.

El segundo punto de vista es la vista probabilístico: la variable aleatoria   depende de la variable aleatoria  , Que depende de  , Que depende de la variable aleatoria  . Este punto de vista se encuentra más comúnmente en el contexto de modelos gráficos .

 
Grafo de dependencias ANN

Los dos puntos de vista son en gran medida equivalente. En cualquier caso, para esta arquitectura de red en particular, los componentes de las capas individuales son independientes entre sí (por ejemplo, los componentes de   son independientes entre sí, dada su aportación  ). Esto permite, naturalmente, un grado de paralelismo en la ejecución.

Las redes como la anterior se llaman comúnmente alimentación hacia delante , porque su gráfica es un grafo dirigido acíclico . Las redes con ciclos se denominan comúnmente recurrentes . Tales redes se representan comúnmente de la manera mostrada en la parte superior de la figura, donde   se muestra como dependiente sobre sí misma. Sin embargo, no se muestra una dependencia temporal implícita.

El aprendizaje

Lo que ha atraído el mayor interés en las redes neuronales es la posibilidad de aprendizaje. Dada una determinada tarea a resolver, y una clase de funciones  , el aprendizaje consiste en utilizar un conjunto de observaciones para encontrar   la cual resuelve la tarea de alguna forma óptima.

Esto implica la definición de una función de coste   tal que, para la solución óptima  . Es decir, ninguna solución tiene un costo menor que el costo de la solución óptima.

La función de coste   es un concepto importante en el aprendizaje, ya que representa lo lejos que una solución particular se encuentra de la solución óptima al problema a resolver. Los algoritmos de aprendizaje buscan a través del espacio de soluciones para encontrar una función que tiene el menor costo posible.

 
Dos representaciones separadas del recurrente gráfico de dependencias ANN

Para aplicaciones en las que la solución es dependiente de algunos datos, el costo debe ser necesariamente una función de las observaciones, de lo contrario no estaríamos modelando todo lo relacionado con los datos. Con frecuencia se define como una estadística a la que se pueden realizar sólo aproximaciones. Como un simple ejemplo, considere el problema de encontrar el modelo  , Lo que reduce al mínimo  , Para pares de datos   extraída de alguna distribución  . En situaciones prácticas sólo tendríamos   muestras de   y, por tanto, para el ejemplo anterior, tendríamos solamente minimizar  . Por lo tanto, el coste se reduce al mínimo a través de una muestra de los datos en lugar de toda la distribución de la generación de los datos.

Cuando  alguna forma de aprendizaje automático en línea debe ser utilizada, donde el costo se reduce al mínimo parcialmente como se ve cada nuevo ejemplo. Mientras que la máquina de aprendizaje en línea se utiliza a menudo cuando   se fija, es más útil en el caso en el que la distribución cambia lentamente con el tiempo. En los métodos de redes neuronales, alguna forma de aprendizaje en línea de la máquina se utiliza con frecuencia para conjuntos de datos finitos.

La elección de una función de coste

Si bien es posible definir alguna función de coste, con frecuencia un coste particular, se utilizará, ya sea porque tiene propiedades deseables (tales como convexidad) o porque surge de forma natural a partir de una formulación particular del problema (por ejemplo, en una formulación probabilística la probabilidad posterior del modelo puede ser utilizada como un costo inverso). En última instancia, la función de coste dependerá de la tarea deseada.

Paradigmas de aprendizaje

Hay tres grandes paradigmas de aprendizaje, cada uno correspondiente a una tarea de aprendizaje abstracto en particular. Estos son el aprendizaje supervisado ,el aprendizaje no supervisado y el aprendizaje por refuerzo.

El aprendizaje supervisado

En el aprendizaje supervisado, se nos da una serie de ejemplos de pares   y el objetivo es encontrar una función  en la clase permitido de funciones que corresponden con los ejemplos. En otras palabras, deseamos inferir el mapeo derivado de los datos; la función de coste está relacionado con la falta de coincidencia entre nuestro mapeo y los datos, y contiene implícitamente el conocimiento previo sobre el dominio del problema.[36]

Un coste de uso común es el error cuadrático medio, que trata de minimizar el error cuadrático medio entre las salidas de la red,   y el valor objetivo   sobre todos los pares ejemplares. Cuando uno trata de minimizar este coste utilizando descenso de gradiente para la clase de las redes neuronales llamadas perceptrones multicapas (MLP), se obtiene el común y bien conocido algoritmo de propagación hacia atrás para la formación de redes neuronales.

Tareas que caen dentro del paradigma de aprendizaje supervisado son el reconocimiento de patrones (también conocido como clasificación) y regresión (también conocido como aproximación de función). El paradigma de aprendizaje supervisado es aplicable también a los datos secuenciales (por ejemplo, reconocimiento del habla, del manuscrito, y de gestos). Esto se puede considerar como una forma de aprendizaje con un "maestro", en la forma de una función que proporciona información continua sobre la calidad de las soluciones obtenidas hasta el momento.

Aprendizaje no supervisado

En el aprendizaje no supervisado, algunos datos   se da y la función de coste que se reduce al mínimo, que puede ser cualquier función de los datos   y la salida de la red,  .

La función de coste depende de la tarea (lo que estamos tratando de modelar) y nuestros a priori suposiciones implícitas (las propiedades de nuestro modelo, sus parámetros y las variables observadas).

Como un ejemplo trivial, considere el modelo   donde   es una constante y el costo  . Minimizar este coste nos dará un valor de   que es igual a la media de los datos. La función de coste puede ser mucho más complicado. Su forma depende de la aplicación: por ejemplo, en la compresión de que podría estar relacionado con la información mutua entre   y  , Mientras que en la modelización estadística, que podría estar relacionado con la probabilidad posterior del modelo dados los datos (tenga en cuenta que en estos dos ejemplos esas cantidades se maximizaría en lugar de reducirse al mínimo).

Tareas que caen dentro del paradigma de aprendizaje no supervisado están en generales de estimación de problemas; las aplicaciones incluyen el agrupamiento, la estimación de distribuciones estadísticas, la compresión de datos y el filtrado bayesiano de spam.

Aprendizaje por refuerzo

En el aprendizaje por refuerzo , los datos   por lo general no se dan, pero generada por la interacción de un agente con el medio ambiente. En cada punto en el tiempo  , El agente realiza una acción  y el medio ambiente genera una observación  y un costo instantáneo  , De acuerdo con algunas dinámicas (por lo general desconocidos). El objetivo es descubrir una política para la selección de las acciones que minimiza una cierta medida de un costo a largo plazo, por ejemplo, el coste acumulativo esperado. La dinámica del medio ambiente y el coste a largo plazo para cada política general son desconocidos, pero pueden ser estimados.

Más formalmente el medio ambiente se modela como un proceso de decisión de Markov (MDP) con los estados   y acciones  con las siguientes distribuciones de probabilidad: la distribución de costos instantánea  ,La distribución de observación   y la transición   Mientras que una política se define como la distribución condicional sobre las acciones dadas las observaciones. Tomados en conjunto, los dos entonces definen una cadena de Márkov (MC). El objetivo es descubrir la política (es decir, el MC) que minimice el costo.

RNAs se utilizan con frecuencia en el aprendizaje de refuerzo como parte del algoritmo general.[37][38]La programación dinámica se ha unido a las RNA (dando la programación neurodinámica) por Bertsekas y Tsitsiklis[39]​ y se aplicó problemas no lineales a la multi-dimensionales, tales como los implicados en enrutamiento de vehículos , gestión de los recursos naturales[40][41]​ o la medicina[42]​ debido a la capacidad de RNAs para mitigar las pérdidas de precisión incluso cuando la reducción de la densidad de la red de discretización para aproximar numéricamente la solución de los problemas de control originales.

Tareas que caen dentro del paradigma de aprendizaje por refuerzo son problemas de control, juegos y otras secuenciales tareas.

Tipo de entrada

Finalmente también se pueden clasificar las RNAs según sean capaces de procesar información de distinto tipo en:

  • Redes analógicas: procesan datos de entrada con valores continuos y, habitualmente, acotados. Ejemplos de este tipo de redes son: Hopfield, Kohonen y las redes de aprendizaje competitivo.
  • Redes discretas: procesan datos de entrada de naturaleza discreta; habitualmente valores lógicos booleanos. Ejemplos de este segundo tipo de redes son: las máquinas de Boltzmann y Cauchy, y la red discreta de Hopfield.

Algoritmos de aprendizaje

El entrenamiento de un modelo de red neuronal en esencia significa seleccionar un modelo de la serie de modelos permitidos (o, en un bayesiano marco, la determinación de una distribución en el conjunto de modelos permitidos) que minimiza el criterio de costo. Hay numerosos algoritmos disponibles para la formación de los modelos de redes neuronales; la mayoría de ellos puede ser vista como una aplicación directa de la teoría de optimización y la estimación estadística.

La mayoría de los algoritmos utilizados en las redes neuronales artificiales de formación emplean alguna forma de descenso de gradiente, utilizando propagación hacia atrás para calcular los gradientes reales. Esto se hace simplemente tomando la derivada de la función de coste con respecto a los parámetros de la red y a continuación, cambiando los parámetros en una dirección relacionada al gradiente. Los algoritmos de entrenamiento de propagación hacia atrás generalmente se clasifican en tres categorías:

Descenso del gradiente (con tasa variable de aprendizaje y momentum, retropropagación elástica (Rprop));

  1. cuasi-Newton ( Broyden-Fletcher-Goldfarb-Shannon, Método de la secante );
  2. Levenberg-Marquardt y gradiente conjugado (actualización Fletcher-Reeves, actualizaación Polak-Ribiere, Powell-Beale reinicio, gradiente conjugado escalado).[43]

Métodos evolutivos,[44]de programación de la expresión génica,[45]de recocido simulado,[46]de esperanza-maximización, los métodos no paramétricos y la optimización por enjambre de partículas[47]​ son algunos otros métodos para la formación de redes neuronales.

Algoritmo recursivo convergente de aprendizaje

Este es un método de aprendizaje específicamente desegnado para redes neuronales controladores de articulación (CMAC por sus siglas en inglés) de modelo cerebelosa. En 2004, un algoritmo recursivo de mínimos cuadrados estaba introducido para formar en línea redes neuronales CMAC. [48]​ Este algoritmo puede convergir en un solo paso, y actualizar todos los pesos en un solo paso con cualquier dato nuevo de entrada. Al principio, este algoritmo tenía complejidad computacional de O(N3). Basado en factorización QR, este algoritmo recursivo de aprendizaje había sido simplificado para hacerlo O(N).[49]

El empleo de redes neuronales artificiales

Tal vez la mayor ventaja de las RNA es su capacidad de ser utilizado como un mecanismo de función de aproximación arbitraria que "aprende" a partir de datos observados. Sin embargo, su uso no es tan sencillo, y una relativamente buena comprensión de la teoría subyacente es esencial.

Elección de modelo
Esto dependerá de la representación de datos y la aplicación. Excesivamente complejos modelos tienden a conducir a problemas en el aprendizaje.
Algoritmo de aprendizaje
Existen numerosas soluciones de compromiso entre los algoritmos de aprendizaje. Casi cualquier algoritmo va a funcionar bien con los hiperparámetros correctos para la formación de un conjunto específico de datos fijos. Sin embargo, la selección y el ajuste de un algoritmo para la formación en datos no previstos requieren una cantidad significativa de experimentación.
Robustez
Si se seleccionan apropiadamente el modelo, la función de coste y el algoritmo de aprendizaje, la RNA resultante puede ser extremadamente robusta.

Con la aplicación correcta, las RNA pueden ser utilizadas de forma natural en el aprendizaje online y aplicaciones de grandes conjuntos de datos. Su aplicación sencilla y la existencia de dependencias en su mayoría locales expuestos en la estructura permiten implementaciones rápidas y paralelas en el hardware.

Aplicaciones

RNA las hacen bastante apropiadas para aplicaciones en las que no se dispone a priori de un modelo identificable que pueda ser programado, pero se dispone de un conjunto básico de ejemplos de entrada (previamente clasificados o no). Asimismo, son altamente robustas tanto al ruido como a la disfunción de elementos concretos y son fácilmente paralelizables.

Esto incluye problemas de clasificación y reconocimiento de patrones de voz, imágenes, señales, etc. Asimismo se han utilizado para encontrar patrones de fraude económico, hacer predicciones en el mercado financiero, hacer predicciones de tiempo atmosférico, etc.

También se pueden utilizar cuando no existen modelos matemáticos precisos o algoritmos con complejidad razonable, por ejemplo la red de Kohonen ha sido aplicada con un éxito más que razonable al clásico problema del viajante (un problema para el que no se conoce solución algorítmica de complejidad polinómica).

Otro tipo especial de redes neuronales artificiales se ha aplicado en conjunción con los algoritmos genéticos (AG) para crear controladores para robots. La disciplina que trata la evolución de redes neuronales mediante algoritmos genéticos se denomina Robótica Evolutiva. En este tipo de aplicación el genoma del AG lo constituyen los parámetros de la red (topología, algoritmo de aprendizaje, funciones de activación, etc.) y la adecuación de la red viene dada por la adecuación del comportamiento exhibido por el robot controlado (normalmente una simulación de dicho comportamiento).

Aplicaciones de la vida real

Las tareas se aplican a las redes neuronales artificiales tienden a caer dentro de las siguientes categorías generales:

Las áreas de aplicación incluyen la identificación de sistemas y el control (control del vehículo, predicción de trayectorias[50]​, el control de procesos, manejo de recursos naturales), la química cuántica, juegos y la toma de decisiones (backgammon, ajedrez, póquer ), el reconocimiento de patrones (sistemas radar, reconocimiento facial, clasificación de señales,[51]​ reconocimiento de objetos y más), de reconocimiento de secuencia (gesto, voz, reconocimiento de texto escrito a mano), diagnóstico médico , aplicaciones financieras (por ejemplo, sistemas automatizados de comercio (trading algorítmico) ), minería de datos (o descubrimiento de conocimiento en bases de datos, "KDD"), la visualización, traducción automática, diferenciando entre informes deseados y no deseados en redes sociales,[52]prevención de spam (correo basura) de correo electrónico.

Las redes neuronales artificiales se han utilizado también para el diagnóstico de varios tipos de cáncer. Un sistema de detección de cáncer de pulmón híbrido basado ANN llamado HLND mejora la precisión del diagnóstico y la velocidad de la radiología cáncer de pulmón. Estas redes también se han utilizado para diagnosticar el cáncer de próstata. Los diagnósticos se pueden utilizar para hacer modelos específicos tomados de un gran grupo de pacientes en comparación con la información de un paciente dado. Los modelos no dependen de suposiciones acerca de las correlaciones de diferentes variables. El cáncer color rectal también se ha previsto el uso de las redes neuronales. Las redes neuronales podrían predecir el resultado de un paciente con cáncer color rectal con más precisión que los métodos clínicos actuales. Después del entrenamiento, las redes podrían predecir múltiples resultados de los pacientes de instituciones relacionadas.

Las redes neuronales y la neurociencia

La Neurociencia Teórica y computacional son el ámbito en que se trata del análisis teórico y el modelado computacional de sistemas neuronales biológicos. Dado que los sistemas neurales están íntimamente relacionados con los procesos cognitivos y de comportamiento, el campo está muy relacionada con el modelado cognitivo y conductual.

El objetivo del campo es la creación de modelos de sistemas neuronales biológicas con el fin de comprender cómo funcionan los sistemas biológicos. Para ganar este entendimiento, los neurólogos se esfuerzan por hacer un vínculo entre los procesos biológicos observados (datos), biológicamente plausibles mecanismos para el procesamiento neuronal y aprendizaje ( redes neuronales biológicas modelos) y la teoría (la teoría del aprendizaje estadístico y la teoría de la información ).

Tipos de modelos

Muchos modelos se utilizan en el campo, que se define en diferentes niveles de abstracción y el modelado de diferentes aspectos de los sistemas neurales. Se extienden desde modelos del comportamiento a corto plazo de las neuronas individuales, tras los modelos del surgimiento de la dinámica de los circuitos neuronales de la interacción entre las neuronas individuales hasta, finalmente, los modelos del surgimiento del comportamiento de los módulos neuronales abstractos que representan subsistemas completas. Estos incluyen modelos de plasticidad de largo y corto plazo, y de los sistemas neuronales y sus relaciones con el aprendizaje y la memoria de la neurona individual a nivel del sistema.

Las redes con memoria

La integración de los componentes de memoria externa con redes neuronales artificiales tiene una larga historia que se remonta a las primeras investigaciones en las representaciones distribuidas y mapas de auto-organización . Por ejemplo, en memoria distribuida dispersa los patrones codificados por las redes neuronales se utilizan como direcciones de memoria para la memoria de contenido direccionable, con "neuronas" que sirven esencialmente como dirección codificadores y decodificadores .

Más recientemente aprendizaje profundo ha demostrado ser útil enhashing semántica , donde un profundo modelo gráfico de los vectores de palabra de recuento de se obtiene a partir de un gran conjunto de documentos. Los documentos se asignan a las direcciones de memoria de tal manera que los documentos semánticamente similares se encuentran en direcciones cercanas. Documentos similares a un documento de consulta a continuación, se pueden encontrar simplemente accediendo a todas las direcciones que difieren por solo unos pocos bits de la dirección del documento de consulta.

Redes de memoria es otra extensión de las redes neuronales que incorporan la memoria a largo plazo que fue desarrollado por Facebook investigación. [53]​ La memoria a largo plazo puede ser leído y escrito para, con el objetivo de utilizarlo para la predicción. Estos modelos se han aplicado en el contexto de la búsqueda de respuestas (QA), donde la memoria a largo plazo que de hecho actúa como un (dinámico) base de conocimientos, y la salida es una respuesta textual.

Máquinas de Turing neuronales desarrollados por Google DeepMind permiten ampliar las capacidades de las redes neuronales profundas mediante el acoplamiento a los recursos de memoria externos, que pueden interactuar con los procesos atencionales. El sistema combinado es análogo a una máquina de Turing pero es diferenciable de extremo a extremo, lo que le permite ser entrenado de manera eficiente con descenso del gradiente. Los resultados preliminares demuestran que las máquinas de Turing neuronales puede deducir algoritmos simples, tales como copiar, clasificar, y recuerdo asociativo a partir de ejemplos de entrada y salida.


Computadoras neuronales diferenciables (DNC) son una extensión de las máquinas de Turing neuronal, también de DeepMind. Se han realizado fuera de las máquinas de Turing neuronales, la memoria de largo a corto plazo los sistemas y redes de la memoria en las tareas de procesamiento de secuencia.

Software de red neuronal

Software de la red neuronal se utiliza para simular, investigación , desarrollo y aplicación de redes neuronales artificiales, redes neuronales biológicas y, en algunos casos, una gama más amplia de sistemas adaptativos.

Tipos de redes neuronales artificiales

Tipos de redes neuronales artificiales varían de aquellos con sólo una o dos capas de lógica única dirección, para muchos bucles complejos multi-direccionales de entrada de realimentación y capas. En general, estos sistemas utilizan algoritmos en su programación para determinar el control y la organización de sus funciones. La mayoría de los sistemas utilizan "pesos" para cambiar los parámetros del rendimiento y las diferentes conexiones con las neuronas. Las redes neuronales artificiales pueden ser autónomas y aprender mediante el aporte de "maestros" externos o incluso auto-enseñanza de las reglas escritas de entrada. Redes neuronales estilo Cubo Neural primera por primera vez por Gianna Giavelli proporcionan un espacio dinámico en el que las redes se recombinan dinámicamente información y enlaces a través de miles de millones de nodos independientes que utilizan la adaptación neuronal darwinismo , una técnica desarrollada por Gerald Edelman , que permite sistemas más modeladas biológicamente.

Potencia del cálculo

El perceptrón multicapa es un aproximado de la función universal, como lo demuestra el teorema de aproximación universal . Sin embargo, la prueba no es constructivo sobre el número de neuronas es necesario, la topología de red, la configuración de los pesos y los parámetros de aprendizaje.

El trabajo de Hava Siegelmann y Eduardo D. Sontag ha proporcionado una prueba de que una arquitectura específica recurrente con los pesos valorados racionales (en oposición a la precisión total número real -valued pesos) tiene toda la potencia de una máquina universal de Turing [59]utilizando un número finito de las neuronas y las conexiones lineales estándar. Además, se ha demostrado que el uso de valores irracionales para resultados pesos en una máquina con super-Turing poder.

Capacidad

Los modelos de redes neuronales artificiales tienen una propiedad denominada "capacidad", que corresponde aproximadamente a su capacidad para modelar cualquier función dada. Se relaciona con la cantidad de información que puede ser almacenada en la red y a la noción de complejidad.

Convergencia

Nada se puede decir en general sobre la convergencia ya que depende de una serie de factores. En primer lugar, pueden existir muchos mínimos locales. Esto depende de la función de coste y el modelo. En segundo lugar, el método de optimización utilizado no puede ser garantizado a converger cuando lejos de un mínimo local. En tercer lugar, para una cantidad muy grande de datos o parámetros, algunos métodos se vuelven poco práctico. En general, se ha encontrado que las garantías teóricas sobre la convergencia son una guía fiable para la aplicación práctica.

Generalización y estadísticas

En aplicaciones donde el objetivo es crear un sistema que generaliza bien en los ejemplos que no se ven, ha surgido el problema de la formación excesiva. Esto surge en los sistemas complicados o sobre especificadas cuando la capacidad de la red supera significativamente los parámetros libres necesarios. Hay dos escuelas de pensamiento para evitar este problema: La primera es utilizar la validación cruzada técnicas similares y para comprobar la presencia de un exceso de entrenamiento y de manera óptima seleccione hiper- tales que se minimice el error de generalización. La segunda es utilizar algún tipo de regularización . Este es un concepto que surge de manera natural en un marco probabilístico (Bayesiano), donde la regularización puede realizarse mediante la selección de una probabilidad a priori más grande sobre los modelos más simples; sino también en la teoría estadística de aprendizaje, donde el objetivo es reducir al mínimo más de dos cantidades: el "riesgo empírico" y el "riesgo estructural ', que corresponde aproximadamente al error sobre el conjunto de entrenamiento y el error de predicción en los datos que no se ven debido a sobreajuste. Redes neuronales supervisadas que utilicen un error cuadrático medio (MSE) función de coste se pueden utilizar métodos estadísticos formales para determinar la confianza del modelo entrenado. El MSE en un conjunto de validación se puede utilizar como una estimación de la varianza. Este valor puede ser utilizado para calcular el intervalo de confianza de la salida de la red, suponiendo una distribución normal . Un análisis de confianza realizado de esta manera es estadísticamente válida siempre que la salida de distribución de probabilidad sigue siendo el mismo y la red no es modificada.

 
Análisis de confianza de una red neuronal

Mediante la asignación de una función de activación softmax , una generalización de la función logística , en la capa de salida de la red neuronal (o un componente softmax en una red neuronal basada en componentes) para las variables categóricas de destino, las salidas se pueden interpretar como las probabilidades. Esto es muy útil en la clasificación, ya que da una medida de la seguridad en las clasificaciones.

La función de activación softmax es:  

La crítica

Cuestiones de capacitación

Una crítica común de las redes neuronales, en particular en la robótica, es que requieren una gran diversidad de entrenamiento para el funcionamiento del mundo real. Esto no es sorprendente, ya que cualquier máquina de aprendizaje necesita suficientes ejemplos representativos con el fin de capturar la estructura subyacente que le permite generalizar a nuevos casos. Dean A. Powerless, en su investigación presentada en el documento "Formación basada en el conocimiento de redes neuronales artificiales para la conducción autónoma del robot", utiliza una red neuronal para entrenar a un vehículo robótico para conducir en múltiples tipos de carreteras (de un solo carril, varios carriles, suciedad, etc.). Una gran cantidad de su investigación está dedicada a (1) la extrapolación de múltiples escenarios de entrenamiento a partir de una sola experiencia de formación, y (2) la preservación de la diversidad de entrenamiento pasado para que el sistema no se convierta en sobre entrenamiento (si, por ejemplo, se presenta con una serie de giros a la derecha - no debe aprender a girar siempre a la derecha). Estos problemas son comunes en las redes neuronales que debe decidir de entre una amplia variedad de respuestas, pero se pueden tratar de varias maneras, por ejemplo por revolver al azar los ejemplos de entrenamiento, mediante el uso de un algoritmo de optimización numérica que no toma demasiado grandes pasos cuando el cambio de las conexiones de red siguiendo un ejemplo, o mediante la agrupación de ejemplos en los llamados mini-lotes.

Cuestiones teóricas

AK Dewdney , un científico matemático e informática de la Universidad de Ontario Occidental y ex Scientific American columnista, escribió en 1997, "A pesar de que las redes neurales hacen resolver algunos problemas de juguete, su poder de computación son tan limitados que me sorprende que nadie los toma en serio como una herramienta general de resolución de problemas ". No existe una red neuronal nunca se ha demostrado que resuelve los problemas computacionalmente difíciles, tales como la N-Queens problema, el problema del viajante de comercio , o el problema de factorizar enteros grandes.

Aparte de su utilidad, una objeción fundamental a las redes neuronales artificiales es que no logran reflejar cómo funcionan las neuronas reales. Propagación hacia atrás está en el corazón de las redes neuronales artificiales y la mayoría no sólo no hay evidencia de ningún mecanismo de este tipo de redes neuronales naturales,[54]​ parece contradecir el principio fundamental de las neuronas reales que la información sólo puede fluir hacia adelante a lo largo del axón. Como la información está codificada por las neuronas reales aún no se conoce. Lo que se sabe es que las neuronas sensoriales disparan potenciales de acción con mayor frecuencia con la activación del sensor y las células musculares tiran más fuertemente cuando sus neuronas motoras asociadas reciben los potenciales de acción con más frecuencia.[55]​ Aparte del caso más simple de solo transmisión de información de una neurona a un sensor de la neurona motora casi nada se conoce de los principios generales subyacentes de cómo se maneja la información por las redes neuronales reales.

El propósito de las redes neuronales artificiales no es necesariamente replicar la función neural real sino inspirarse en redes neuronales naturales como acercamiento a una computación, inherentemente paralela, que proporcione soluciones a problemas que hasta ahora han sido intratables. Por tanto, una afirmación central de las redes neuronales artificiales es que encarna algún principio general nuevo y potente para el procesamiento de la información. Por desgracia, estos principios generales están mal definidos y que a menudo se afirma que son emergentes de la red neuronal en sí. Esto permite la asociación estadística sencilla (la función básica de las redes neuronales artificiales), que se describe como el aprendizaje o el reconocimiento. Como resultado, las redes neuronales artificiales tienen, según Dewdney, un "algo para nada la calidad, que imparte un aura peculiar de la pereza y una clara falta de curiosidad acerca de lo bien que estos sistemas de computación son Ninguna mano humana (o la mente) interviene; soluciones. Se encuentran como por arte de magia, y nadie, al parecer, ha aprendido nada”.[56]

Los problemas de hardware

Para implementar software de redes neuronales grandes y eficaces deben emplearse considerables recursos de procesamiento y almacenamiento. Mientras que el cerebro ha adaptado su hardware a la tarea de procesamiento de señales a través de un Grafo de las neuronas, simular incluso una forma simplificada en la arquitectura von Neumann puede obligar a un diseñador de la red neural a utilizar muchos millones de filas de bases de datos para sus conexiones, lo que puede consumir grandes cantidades de espacio de memoria RAM y disco duro. Además, el diseñador de sistemas de redes neurales a menudo necesitará utilizar para simular la transmisión de señales a través de muchas de estas conexiones y sus neuronas asociadas una increíble cantidad de potencia de procesamiento y tiempo de CPU.

Jürgen Schmidhuber toma nota de que el resurgimiento de las redes neuronales en el siglo XXI, y su éxito renovado en tareas de reconocimiento de imagen es atribuible en gran medida a los avances en el hardware: de 1991 a 2015, el poder de computación, especialmente en lo entregado por GPGPUs (en las GPU ), ha aumentado alrededor de un millón de veces, por lo que el algoritmo de retropropagación estándar viable para las redes de formación que son varias capas más profundas que antes (pero añade que esto no resuelve los problemas algorítmicos tales como el problema del desvanecimiento de gradientes "de una manera fundamental"). El uso de la GPU en lugar de CPUs ordinarios puede traer los tiempos de entrenamiento para algunas redes por debajo de los meses a meros días.

Potencia de cálculo sigue creciendo más o menos de acuerdo con la Ley de Moore , que puede proporcionar recursos suficientes para llevar a cabo nuevas tareas. Ingeniería neuromorphic aborda la dificultad de hardware directamente, mediante la construcción de chips de no-von Neumann con circuitos diseñados para implementar redes neuronales desde el principio. Google también ha diseñado un chip optimizado para el procesamiento de red neural llamado Unidad de Procesamiento Tensor o TPU.

Contraejemplos prácticas a las críticas

Argumentos en contra de la posición de Dewdney son que las redes neuronales se han utilizado con éxito para resolver muchas tareas complejas y diversas, que van desde aviones que vuelan de forma autónoma para la detección de fraude de tarjetas de crédito.

Escritor de tecnología Roger Bridgman ha comentado las declaraciones de DEWDNEY sobre redes neuronales:

Las redes neuronales, por ejemplo, están en el muelle no sólo porque han sido promocionado al alto cielo, (lo que tiene, no?), sino también porque se puede crear una red de éxito sin la comprensión de cómo funcionaba: el montón de números que captura su comportamiento sería con toda probabilidad "una, mesa ilegible opaca... sin valor como recurso científico".

A pesar de su enfática declaración de que la ciencia no es la tecnología, parece Dewdney aquí para ridiculizar a las redes neuronales como mala ciencia cuando la mayoría de los ideando ellos están tratando de ser buenos ingenieros. Una tabla puede leer que una máquina útil podía leer todavía sería bien vale la pena tener.

Si bien es cierto que el análisis de lo que se ha aprendido por una red neuronal artificial es difícil, es mucho más fácil de hacerlo que analizar lo que se ha aprendido por una red neuronal biológica. Por otra parte, los investigadores involucrados en la exploración de algoritmos de aprendizaje para redes neuronales están descubriendo gradualmente principios genéricos que permiten que una máquina de aprendizaje tenga éxito. Por ejemplo, Bengio y LeCun (2007) escribió un artículo sobre el aprendizaje locales vs. No locales, así como poco profundas frente a la arquitectura de profundidad.

Enfoques híbridos

Algunas otras críticas que provienen de los defensores de los modelos híbridos (combinación de redes neuronales y enfoques simbólicos), que creen que el intermix de estos dos enfoques puede capturar mejor los mecanismos de la mente humana.

Conclusión

Aunque en algunas facultades de informática se sigue instruyendo en redes neuronales artificiales, éstas no disponen de un rigor científico claro, y están consideradas como una pseudociencia por la mayoría de científicos e ingenieros.

Las clases y tipos de RNAs

Ejemplos

Quake II Neuralbot

Un bot es un programa que simula a un jugador humano. El Neuralbot es un bot para el juego Quake II que utiliza una red neuronal artificial para decidir su comportamiento y un algoritmo genético para el aprendizaje. Es muy fácil probarlo para ver su evolución. Más información aquí

Clasificador No Sesgado de Proteínas

Es un programa que combina diversas técnicas computacionales con el objetivo de clasificar familias de proteínas. Un posible método consiste en utilizar métricas adaptativas como por ejemplo: mapas autoorganizados y algoritmos genéticos.

El problema de clasificación no sesgada basada en la expresión de las proteínas en Aminoácidos puede reducirse, conceptualmente, a lo siguiente:

  • La identificación de grupos de proteínas que compartan características comunes.
  • La determinación de las razones estructurales por las cuales las proteínas en cuestión se agrupan de la manera indicada.
  • Evitar la idea de establecer criterios de clasificación (“sesgados”) fundamentados en ideas preconcebidas para lograr su clasificación. En este sentido, hay dos asuntos que considerar:
    • Cómo lograr la caracterización de las proteínas de manera no sesgada
    • Cómo lograr lo anterior sin apelar a medidas de agrupamiento que, a su vez, impliquen algún tipo de sesgo sobre dicho agrupamiento.

Las RNA han sido aplicadas a un número en aumento de problemas en la vida real y de considerable complejidad, donde su mayor ventaja es en la solución de problemas que son bastante complejos para la tecnología actual, tratándose de problemas que no tienen una solución algorítmica o cuya solución algorítmica es demasiado compleja para ser encontrada.

En general, debido a que son parecidas a las del cerebro humano, las RNA son bien nombradas ya que son buenas para resolver problemas que el humano puede resolver pero las computadoras no. Estos problemas incluyen el reconocimiento de patrones y la predicción del tiempo. De cualquier forma, el humano tiene capacidad para el reconocimiento de patrones, pero la capacidad de las redes neuronales no se ve afectada por la fatiga, condiciones de trabajo, estado emocional, y compensaciones.

Se conocen cinco aplicaciones tecnológicas extendidas:

  1. Reconocimiento de textos manuscritos
  2. Reconocimiento del habla
  3. Simulación de centrales de producción de energía
  4. Detección de explosivos
  5. Identificación de blancos de radares

Galería

Herramientas de software

Existen muchas herramientas de software que implementan redes neuronales artificiales, tanto libres como comerciales como, por ejemplo:

Véase también

Referencias

  1. [url=http://www.itnuevolaredo.edu.mx/takeyas/apuntes/Inteligencia%20Artificial/Apuntes/tareas_alumnos/RNA/Redes%20Neuronales2.pdf «historia de las redes neurales»]. 
  2. McCulloch, Warren; Walter Pitts (1943). «A Logical Calculus of Ideas Immanent in Nervous Activity». Bulletin of Mathematical Biophysics 5 (4): 115-133. doi:10.1007/BF02478259. 
  3. Figueroba, Alex. «Ley de Hebb: la base neuropsicológica del aprendizaje». Psicología y mente. Consultado el 24 de octubre de 2018. 
  4. Hebb, Donald (1949). The Organization of Behavior [La Organización del Comportamiento]. Nueva York: Wiley. ISBN 978-1-135-63190-1. 
  5. Republicación del artículode Turing de 1948: Turing, A.M. (1992). Collected works of AM Turing — Mechanical Intelligence. [Obras colectivas de AM Turing — Inteligencia mecánica] (en inglés). Elsevier Science Publishers. 
  6. Webster, C.S. (2012). Alan Turing's unorganized machines and artificial neural networks: his remarkable early work and future possibilities [Las máquinas desoranizadas y redes de neuronas artificiales de Alan Turing: su notable trabajo inicial y posibilidades futuras posibilidades] (en inglés publicación=Evolutionary Intelligence) (5). pp. 35-43.  Webster CS. Alan Turing's unorganized machines and artificial neural networks: his remarkable early work and future possibilities. Evolutionary Intelligence 2012: 5; 35-43.
  7. Farley, B.G.; W.A. Clark (1954). «Simulation of Self-Organizing Systems by Digital Computer» [Simulación de Sistemas Autoorganizadoras por Computadora Digital]. IRE Transactions on Information Theory 4 (4): 76-84. doi:10.1109/TIT.1954.1057468. 
  8. Rochester, N.; J.H. Holland; L.H. Habit; W.L. Duda (1956). «Tests on a cell assembly theory of the action of the brain, using a large digital computer» ["Pruebas de una teoría de la acción del cerebro por asamblea de células, usando una computadora digital grande]. IRE Transactions on Information Theory 2 (3): 80-93. doi:10.1109/TIT.1956.1056810. 
  9. Matich, Damián Jorge (2001). «Redes Neuronales: Conceptos Básicos y Aplicaciones.» (PDF). Buenos Aires, Argentina. p. 6. Consultado el 26 de octubre de 2018. 
  10. Rosenblatt, F. (1958). «The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain». Psychological Review 65 (6): 386-408. PMID 13602029. doi:10.1037/h0042519. 
  11. Werbos, P.J. (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University. 
  12. Hubel, David H.; Wiesel, Torsten (2005). Brain and visual perception: the story of a 25-year collaboration [Cerebro y percepción visual: la historia de una colaboración de 25 años]. Oxford University Press US. p. 106. ISBN 978-0-19-517618-6. 
  13. Schmidhuber, J. (2015). «Deep Learning in Neural Networks: An Overview». Neural Networks 61: 85-117. PMID 25462637. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. 
  14. Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation. 
  15. Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentín (1967). Cybernetics and forecasting techniques. American Elsevier Pub. Co. 
  16. Minsky, Marvin; Papert, Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN 0-262-63022-2. 
  17. Rumelhart, D.E; McClelland, James (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge: MIT Press. ISBN 978-0-262-63110-5. 
  18. Qian, N.; Sejnowski, T.J. (1988). «Predicting the secondary structure of globular proteins using neural network models.». Journal of Molecular Biology 202: 865-884. Qian1988. 
  19. Rost, B.; Sander, C. (1993). «Prediction of protein secondary structure at better than 70% accuracy». Journal of Molecular Biology 232: 584-599. Rost1993. 
  20. Weng, J.; Ahuja, N.; Huang, T. S. (1992). «Cresceptron: a self-organizing neural network which grows adaptively». Proc. International Joint Conference on Neural Networks (Baltimore, Maryland) 1: 576-581. 
  21. Weng, J.; Ahuja, N.; Huang, T.S. (1993). «Learning recognition and segmentation of 3-D objects from 2-D images». Proc. 4th International Conf. Computer Vision (Berlin, Alemania): 121-128. 
  22. Weng, J.; Ahuja, N.; Huang, T.S. (1997). «Learning recognition and segmentation using the Cresceptron». International Journal of Computer Vision 25 (2): 105-139. 
  23. Scherer, Dominik; Müller, Andreas C.; Behnke, Sven (2010). «Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition». 20th International Conference Artificial Neural Networks (ICANN): 92-101. doi:10.1007/978-3-642-15825-4_10. 
  24. S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
  25. Hochreiter, S.; et al. (15 de enero de 2001). «Gradient flow in recurrent nets: the difficulty of learning long-term dependencies». En Kolen, John F.; Kremer, Stefan C., eds. A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5. 
  26. J. Schmidhuber., "Learning complex, extended sequences using the principle of history compression," Neural Computation, 4, pp. 234–242, 1992.
  27. Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation.. Lecture Notes in Computer Science 2766. Springer. 
  28. Yang, J. J.; Pickett, M. D.; Li, X. M.; Ohlberg, D. A. A.; Stewart, D. R.; Williams, R. S. (2008). «Memristive switching mechanism for metal/oxide/metal nanodevice». Nat. Nanotechnol. 3: 429-433. doi:10.1038/nnano.2008.160. 
  29. Strukov, D. B.; Snider, G. S.; Stewart, D. R.; Williams, R. S. (2008). «The missing memristor found». Nature 453 (7191): 80-83. Bibcode:2008Natur.453...80S. PMID 18451858. doi:10.1038/nature06932. 
  30. Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca María; Schmidhuber, Jürgen (21 de septiembre de 2010). «Deep, Big, Simple Neural Nets for Handwritten Digit Recognition». Neural Computation 22 (12): 3207-3220. ISSN 0899-7667. doi:10.1162/neco_a_00052. 
  31. Yang, J. J.; Pickett, M. D.; Li, X. M.; Ohlberg, D. A. A.; Stewart, D. R.; Williams, R. S. (2008). «Memristive switching mechanism for metal/oxide/metal nanodevices». Nat. Nanotechnol. 3 (7): 429-433. doi:10.1038/nnano.2008.160. 
  32. Strukov, D. B.; Snider, G. S.; Stewart, D. R.; Williams, R. S. (2008). «The missing memristor found». Nature 453 (7191): 80-83. Bibcode:2008Natur.453...80S. PMID 18451858. doi:10.1038/nature06932. 
  33. Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (Agosto de 2012). «Multi-column deep neural network for traffic sign classification». Neural Networks. Selected Papers from IJCNN 2011 32: 333-338. doi:10.1016/j.neunet.2012.02.023. 
  34. Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L. et al., eds. Advances in Neural Information Processing Systems 25. Curran Associates, Inc. pp. 2843-2851. 
  35. . Archivado desde el original el 26 de agosto de 2018. Consultado el 19 de septiembre de 2018. 
  36. Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1 de abril de 2017). «Metaheuristic design of feedforward neural networks: A review of two decades of research». Engineering Applications of Artificial Intelligence 60: 97-116. doi:10.1016/j.engappai.2017.01.013. 
  37. Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (July 1991). «Genetic reinforcement learning for neural networks». IJCNN-91-Seattle International Joint Conference on Neural Networks (Seattle, Washington, USA: IEEE). ISBN 0-7803-0164-1. doi:10.1109/IJCNN.1991.155315. 
  38. Hoskins, J.C.; Himmelblau, D.M. (1992). «Process control via artificial neural networks and reinforcement learning». Computers & Chemical Engineering 16 (4): 241-251. doi:10.1016/0098-1354(92)80045-B. 
  39. Bertsekas, D.P.; Tsitsiklis, J.N. (1996). Neuro-dynamic programming. Athena Scientific. p. 512. ISBN 1-886529-10-8. 
  40. de Rigo, D.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E.; Zenesi, P. (2001). «Neuro-dynamic programming for the efficient management of reservoir networks». Proceedings of MODSIM 2001, International Congress on Modelling and Simulation (Canberra, Australia: Modelling and Simulation Society of Australia and New Zealand). ISBN 0-867405252. doi:10.5281/zenodo.7481. Consultado el 29 de julio de 2012. 
  41. Damas, M.; Salmeron, M.; Díaz, A.; Ortega, J.; Prieto, A.; Olivares, G. (2000). «Genetic algorithms and neuro-dynamic programming: application to water supply networks». Proceedings of 2000 Congress on Evolutionary Computation (La Jolla, California, USA: IEEE). ISBN 0-7803-6375-2. doi:10.1109/CEC.2000.870269. 
  42. Deng, Geng; Ferris, M.C. (2008). «Neuro-dynamic programming for fractionated radiotherapy planning». Springer Optimization and Its Applications. Springer Optimization and Its Applications 12: 47-70. ISBN 978-0-387-73298-5. doi:10.1007/978-0-387-73299-2_3. 
  43. M. Forouzanfar; H. R. Dajani; V. Z. Groza; M. Bolic; S. Rajan (July 2010). Comparison of Feed-Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation. Arad, Romania: IEEE. 
  44. de Rigo, D.; Castelletti, A.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E. (January 2005). «A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management». En Pavel Zítek, ed. Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine (Prague, Czech Republic: IFAC) 16. ISBN 978-3-902661-75-3. doi:10.3182/20050703-6-CZ-1902.02172. Consultado el 30 de diciembre de 2011. 
  45. Ferreira, C. (2006). «Designing Neural Networks Using Gene Expression Programming». In A. Abraham, B. de Baets, M. Köppen, and B. Nickolay, eds., Applied Soft Computing Technologies: The Challenge of Complexity, pages 517–536, Springer-Verlag. 
  46. Da, Y.; Xiurun, G. (July 2005). «An improved PSO-based ANN with simulated annealing technique». En T. Villmann, ed. New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks (Elsevier). doi:10.1016/j.neucom.2004.07.002. 
  47. Wu, J.; Chen, E. (May 2009). Wang, H., Shen, Y., Huang, T., Zeng, Z., ed. A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network. Springer. ISBN 978-3-642-01215-0. doi:10.1007/978-3-642-01513-7-6. 
  48. Ting Qin, et al. "A learning algorithm of CMAC based on RLS." Neural Processing Letters 19.1 (2004): 49–61.
  49. Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array." Neural Processing Letters 22.1 (2005): 1–16.
  50. Zissis, Dimitrios (October 2015). «A cloud based architecture capable of perceiving and predicting multiple vessel behaviour». Applied Soft Computing 35: 652-661. doi:10.1016/j.asoc.2015.07.002. 
  51. Sengupta, Nandini; Sahidullah, Md; Saha, Goutam (August 2016). «Lung sound classification using cepstral-based statistical features». Computers in Biology and Medicine 75 (1): 118-129. doi:10.1016/j.compbiomed.2016.05.013. 
  52. Schechner, Sam (15 de junio de 2017). «Facebook Boosts A.I. to Block Terrorist Propaganda». Wall Street Journal (en inglés estadounidense). ISSN 0099-9660. Consultado el 16 de junio de 2017. 
  53. https://nmas1.org/news/2018/06/22/fb-musica-ra-tecnologia
  54. Crick, Francis (1989). «The recent excitement about neural networks». Nature 337 (6203): 129-132. Bibcode:1989Natur.337..129C. PMID 2911347. doi:10.1038/337129a0. 
  55. Adrian, Edward D. (1926). «The impulses produced by sensory nerve endings». The Journal of Physiology 61 (1): 49-72. PMC 1514809. PMID 16993776. doi:10.1113/jphysiol.1926.sp002273. 
  56. Dewdney, A. K. (1 de abril de 1997). Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science. Wiley. p. 82. ISBN 978-0-471-10806-1. 

Enlaces externos

  •   Wikimedia Commons alberga una galería multimedia sobre Red neuronal artificial.
  • (español)
  • Introducción a las redes de neuronas artificiales (español)
  • (inglés)
  • Sitio web sobre redes neuronales artificiales, ejemplos y aplicaciones (español)
  • Introducción a las Redes Neuronales y sus Modelos (español)
  • (español)
  • neural-network repositorio en GitHub (PHP)
  • Entiende como funcionan las redes neuronales en menos de 10 minutos (español)
  •   Datos: Q192776
  •   Multimedia: Artificial neural networks

neuronal, artificial, este, artículo, trata, sobre, neuronal, artificial, para, otros, usos, este, término, véase, neuronal, biológica, este, artículo, sección, necesita, referencias, aparezcan, publicación, acreditada, este, aviso, puesto, febrero, 2017, text. Este articulo trata sobre red neuronal artificial Para otros usos de este termino vease red neuronal biologica Este articulo o seccion necesita referencias que aparezcan en una publicacion acreditada Este aviso fue puesto el 27 de febrero de 2017 El texto que sigue es una traduccion defectuosa Si quieres colaborar con Wikipedia busca el articulo original y mejora esta traduccion Copia y pega el siguiente codigo en la pagina de discusion del autor de este articulo subst Aviso mal traducido Red neuronal artificial Las redes neuronales artificiales tambien conocidas como sistemas conexionistas son un modelo computacional el que fue evolucionando a partir de diversas aportaciones cientificas que estan registradas en la historia 1 Consiste en un conjunto de unidades llamadas neuronas artificiales conectadas entre si para transmitirse senales La informacion de entrada atraviesa la red neuronal donde se somete a diversas operaciones produciendo unos valores de salida Una red neuronal artificial es un grupo interconectado de nodos similar a la vasta red de neuronas en un cerebro biologico Cada nodo circular representa una neurona artificial y cada flecha representa una conexion desde la salida de una neurona a la entrada de otra Cada neurona esta conectada con otras a traves de unos enlaces En estos enlaces el valor de salida de la neurona anterior es multiplicado por un valor de peso Estos pesos en los enlaces pueden incrementar o inhibir el estado de activacion de las neuronas adyacentes Del mismo modo a la salida de la neurona puede existir una funcion limitadora o umbral que modifica el valor resultado o impone un limite que no se debe sobrepasar antes de propagarse a otra neurona Esta funcion se conoce como funcion de activacion Estos sistemas aprenden y se forman a si mismos en lugar de ser programados de forma explicita y sobresalen en areas donde la deteccion de soluciones o caracteristicas es dificil de expresar con la programacion convencional Para realizar este aprendizaje automatico normalmente se intenta minimizar una funcion de perdida que evalua la red en su total Los valores de los pesos de las neuronas se van actualizando buscando reducir el valor de la funcion de perdida Este proceso se realiza mediante la propagacion hacia atras El objetivo de la red neuronal es resolver los problemas de la misma manera que el cerebro humano aunque las redes neuronales son mas abstractas Las redes neuronales actuales suelen contener desde unos miles a unos pocos millones de unidades neuronales Nuevas investigaciones sobre el cerebro a menudo estimulan la creacion de nuevos patrones en las redes neuronales Un nuevo enfoque esta utilizando conexiones que se extienden mucho mas alla y capas de procesamiento de enlace en lugar de estar siempre localizado en las neuronas adyacentes Otra investigacion esta estudiando los diferentes tipos de senal en el tiempo que los axones se propagan como el aprendizaje profundo interpola una mayor complejidad que un conjunto de variables booleanas que son simplemente encendido o apagado Las redes neuronales se han utilizado para resolver una amplia variedad de tareas como la vision por computador y el reconocimiento de voz que son dificiles de resolver usando la ordinaria programacion basado en reglas Historicamente el uso de modelos de redes neuronales marco un cambio de direccion a finales de los anos ochenta de alto nivel que se caracteriza por sistemas expertos con conocimiento incorporado en si entonces las reglas a bajo nivel de aprendizaje automatico caracterizado por el conocimiento incorporado en los parametros de un modelo cognitivo con algun sistema dinamico Indice 1 Historia 1 1 Aprendizaje de Hebb 1 2 Propagacion hacia atras y el resurgimiento 1 3 Disenos basados en Hardware 2 Mejoras desde 2006 3 Modelos 3 1 Funcion de red 3 2 El aprendizaje 3 3 La eleccion de una funcion de coste 3 4 Paradigmas de aprendizaje 3 4 1 El aprendizaje supervisado 3 4 2 Aprendizaje no supervisado 3 4 3 Aprendizaje por refuerzo 3 5 Tipo de entrada 4 Algoritmos de aprendizaje 4 1 Algoritmo recursivo convergente de aprendizaje 4 2 El empleo de redes neuronales artificiales 5 Aplicaciones 5 1 Aplicaciones de la vida real 5 2 Las redes neuronales y la neurociencia 6 Potencia del calculo 7 La critica 7 1 Cuestiones de capacitacion 7 2 Cuestiones teoricas 8 Las clases y tipos de RNAs 9 Ejemplos 9 1 Quake II Neuralbot 9 2 Clasificador No Sesgado de Proteinas 10 Galeria 11 Herramientas de software 12 Vease tambien 13 Referencias 14 Enlaces externosHistoria EditarWarren McCulloch y Walter Pitts 2 1943 crearon un modelo informatico para redes neuronales que se llama logica umbral que se base en las matematicas y los algoritmos Este modelo senalo el camino para que la investigacion de redes neuronales se divida en dos enfoques distintos Un enfoque se centro en los procesos biologicos en el cerebro y el otro se centro en la aplicacion de neuronales para la inteligencia artificial Aprendizaje de Hebb Editar A finales de la decada de 1940 el psicologo Donald Hebb 3 4 creo una hipotesis de aprendizaje basado en el mecanismo de plasticidad neuronal que ahora se conoce como aprendizaje de Hebb Aprendizaje de Hebb se considera que es un tipico de aprendizaje no supervisado y sus variantes posteriores fueron los primeros modelos de la potenciacion a largo plazo Los investigadores empezaron a aplicar estas ideas a los modelos computacionales en 1948 con la sugerencia de Turing que el cortex humano infantil es lo que llamaba maquina desorganizada tambien conocido como maqina Turing Tipo B 5 6 Farley y Wesley A Clark 7 1954 al principio utilizaron maquinas computacionales que entonces se llamaban calculadoras para simular una red de Hebb en el MIT Otras simulaciones de redes neuronales por computadora han sido creadas por Rochester Holanda Habito y Duda 1956 8 Frank Rosenblatt 9 10 1958 creo el perceptron un algoritmo de reconocimiento de patrones basado en una red de aprendizaje de computadora de dos capas que utilizaba adicion y sustraccion simples Con la notacion matematica Rosenblatt tambien describe circuiteria que no esta en el perceptron basico tal como el circuito de o exclusiva un circuito que no se pudo procesar por redes neuronales antes de la creacion del algoritmo de propagacion hacia atras por Paul Werbos 1975 11 En 1959 un modelo biologico propuesto por dos laureados de los Premios Nobel David H Hubel y Torsten Wiesel estaba basado en su descubrimiento de dos tipos de celulas en la corteza visual primaria celulas simples y celulas complejas 12 El primer reporte sobre redes funcionales multicapas fue publicado en 1965 por Ivakhnenko y Lapa y se conoce como el metodo de agrupamiento para el manejo de datos 13 14 15 La investigacion de redes neuronales se estanco despues de la publicacion de la investigacion de aprendizaje automatico por Marvin Minsky y Seymour Papert 1969 16 que descubrio dos cuestiones fundamentales con las maquinas computacionales que procesan las redes neuronales La primera fue que los perceptrones basicos eran incapaces de procesar el circuito de o exclusivo La segunda cuestion importante era que los ordenadores no tenian suficiente poder de procesamiento para manejar eficazmente el gran tiempo de ejecucion requerido por las grandes redes neuronales Propagacion hacia atras y el resurgimiento Editar Un avance clave posterior fue el algoritmo de propagacion hacia atras que resuelve eficazmente el problema de o exclusivo y en general el problema del entrenamiento rapido de redes neuronales de multiples capas Werbos 1975 El proceso de propagacion hacia atras utiliza la diferencia entre el resultado producido y el resultado deseado para cambiar los pesos de las conexiones entre las neuronas artificiales 11 A mediados de la decada de 1980 el procesamiento distribuido en paralelo se hizo popular con el nombre conexionismo El libro de David E Rumelhart y James McClelland 1986 proporcionan una exposicion completa de la utilizacion de conexionismo en los ordenadores para simular procesos neuronales 17 Las redes neuronales tal como se utilizan en la inteligencia artificial han sido consideradas tradicionalmente como modelos simplificados de procesamiento neuronal en el cerebro a pesar de que la relacion entre este modelo y la arquitectura biologica del cerebro se debate no esta claro en que medida las redes neuronales artificiales reflejan el funcionamiento cerebral Maquinas de soporte vectorial y otros metodos mucho mas simples tales como los clasificadores lineales alcanzaron gradualmente popularidad en el aprendizaje automatico No obstante el uso de redes neuronales ha cambiado algunos campos tales como la prediccion de las estructuras de las proteinas 18 19 En 1992 fue introducido el max pooling una forma de submuestreo en la que se divide los datos en grupos de tamanos iguales que no tienen elementos en comun y se transmite solamente el valor maximo de cada grupo para ayudar con el reconocimiento de objetos tri dimensionales 20 21 22 En 2010 el uso de max pooling en el entrenamiento por propagacion hacia atras fue acelerado por los GPUs y se demostro que ofrece mejor rendimiento que otros tipos de agrupamiento 23 El problema del desvanecimiento del gradiente afecta las redes neuronales prealimentadas de multiples capas que usan la propagacion hacia atras y tambien los redes neuronales recurrentes RNNs 24 25 Aunque los errores se propagan de una capa a otra disminuyen exponencialmente con el numero de capas y eso impide el ajuste hacia atras de los pesos de las neuronas basado en esos errores Las redes profundas se ven particularmente afectadas Para vencer este problema Schmidhuber adoptaba una jerarquia multicapa de redes 1992 pre entrenados una capa a la vez por aprendizaje no supervisado y refinado por propagacion hacia atras 26 Behnke 2003 contaba solamente con el signo del gradiente Rprop 27 tratandose de problemas tales como la reconstruccion de imagenes y la localizacion de caras Como retos anteriores en redes neuronales profundas de capacitacion se resolvieron con metodos como pre entrenamiento no supervisado y potencia de calculo incrementada a traves del uso de las GPU y la computacion distribuida las redes neuronales se desplegaron de nuevo a gran escala sobre todo en problemas de procesamiento de imagenes y de reconocimiento visual Esto se conocio como aprendizaje profundo aunque el aprendizaje profundo no es estrictamente sinonimo de redes neuronales profundas Disenos basados en Hardware Editar Se crearon en CMOS dispositivos de computo para la simulacion biofisica al igual que para la computo neuromorfico Nanodispositivos 28 para analisis de componentes principales de escala muy grande y convolucion pueden crear una clase nueva de computo neuronal porque son fundamentalmente analogicos en vez de digitales aunque las primeras implementaciones puedan utilizar dispositivos digitales 29 Ciresan y sus colegos 2010 30 en el grupo de Schmidhuber mostraron que a pesar del problema del desvanecimiento del gradiente los GPUs hacen factible la propagacion hacia atras para las redes neuronales prealimentadas con multiples capas Mejoras desde 2006 EditarSe han creado dispositivos computacionales en el CMOS tanto para la simulacion biofisica como para computacion neuromorfica Los esfuerzos mas recientes se muestran prometedores para la creacion de nanodispositivos 31 para analisis de componentes principales de gran escala Si tiene exito se crearia una nueva clase de computacion neuronal ya que depende de aprendizaje automatico en lugar de la programacion y porque es fundamentalmente analogico en lugar de digital a pesar de que las primeras instancias pueden ser de hecho con los dispositivos digitales CMOS 32 Entre 2009 y 2012 las redes neuronales recurrentes y redes neuronales profundas feedforward desarrollados en el grupo de investigacion de Jurgen Schmidhuber en el laboratorio suizo de IA IDSIA han ganado ocho concursos internacionales de reconocimiento de patrones y aprendizaje automatico Por ejemplo la memoria bi direccional y multidimensional de largo a corto plazo LSTM de Alex Graves ha ganado tres competiciones en el reconocimiento de escritura conectada en Conferencia Internacional sobre Analisis de documentos y Reconocimiento ICDAR del 2009 sin ningun conocimiento previo acerca de los tres idiomas diferentes que se pueden aprender Implementaciones de este metodo basadas en unidades de procesamiento grafico rapidas hechos por Dan Ciresan y sus colegas de IDSIA han ganado varios concursos de reconocimiento de patrones incluyendo la Competicion de Reconocimiento de Senales de Trafico del 2011 33 el desafio de ISBI 2012 de segmentacion de estructuras neuronales en series de imagenes de Microscopia Electronica 34 y otros Sus redes neuronales tambien fueron las primeras reconocedoras artificiales de patrones en lograr un rendimiento superior al humano en los puntos de referencia importantes tales como el reconocimiento de senales de trafico IJCNN 2012 o el problema de clasificacion de digitos escritos a mano Arquitecturas profundas altamente no lineales similares a las del 1980 Neocognitron por Kunihiko Fukushima y la arquitectura estandar de la vision inspirados en las celulas simples y complejas identificadas por David H Hubel y Torsten Wiesel en la corteza visual pueden tambien ser pre formados por metodos no supervisados en el laboratorio de la universidad de Toronto Un equipo de este laboratorio gano un concurso en 2012 patrocinado por Merck para el diseno de software para ayudar a encontrar moleculas que podrian conducir a nuevos medicamentos Modelos EditarLos modelos de redes neuronales en la inteligencia artificial se refieren generalmente a las redes neuronales artificiales RNA estos son modelos matematicos esencialmente simples que definen una funcion f X Y o una distribucion mas X o ambos X e Y Pero a veces los modelos tambien estan intimamente asociadas con un algoritmo de aprendizaje en particular o regla de aprendizaje Un uso comun de la frase modelo ANN es en realidad la definicion de una clase de tales funciones donde los miembros de la clase se obtiene variando parametros los pesos de conexion o especificos de la arquitectura tales como el numero de neuronas o su conectividad Funcion de red Editar La palabra red en el termino red neuronal artificial se refiere a las interconexiones entre las neuronas en las diferentes capas de cada sistema Un sistema ejemplar tiene tres capas La primera capa tiene neuronas de entrada que envian datos a traves de las sinapsis a la segunda capa de neuronas y luego a traves de mas sinapsis a la tercera capa de neuronas de salida Los sistemas mas complejos tendran mas capas algunos aumentando las de entrada y de salida de neuronas Las sinapsis almacenan parametros llamados pesos que manipulan los datos en los calculos Un RNA se define tipicamente por tres tipos de parametros 1 El patron de interconexion entre las diferentes capas de neuronas2 El proceso de aprendizaje para la actualizacion de los pesos de las interconexiones3 La funcion de activacion que convierte las entradas ponderadas de una neurona a su activacion a la salida Matematicamente la funcion de red de una neurona f x displaystyle begin alignedat 2 f x end alignedat se define como una composicion de otras funciones g i x displaystyle g i begin alignedat 2 x end alignedat Este se representa como una estructura de red con flechas que representan las dependencias entre variables Un tipo ampliamente utilizado de la composicion es la suma ponderada no lineal dondef x k i w i g i x displaystyle begin alignedat 2 f x amp k amp bigl textstyle sum i displaystyle amp w i amp g i x end alignedat donde k denominado comunmente como la funcion de activacion 35 es una funcion predefinida como la tangente hiperbolica o funcion sigmoide La caracteristica importante de la funcion de activacion es que proporciona una transicion suave como valores de entrada de cambio es decir un pequeno cambio en la entrada produce un pequeno cambio en la produccion Sera conveniente para la siguiente para referirse a una coleccion de funciones g i displaystyle g i simplemente como un vector g g i g 2 g n displaystyle g g i g 2 g n Esta cifra representa una descomposicion de tales f displaystyle f Con las dependencias entre las variables indicadas por las flechas Estos pueden ser interpretados de dos maneras La primera vista es la vista funcional la entrada x displaystyle x se transforma en un vector de 3 dimensiones h displaystyle h Que se transforma a continuacion en un vector de 2 dimensiones g displaystyle g Que es finalmente transformado en f displaystyle f Este punto de vista se encuentra mas comunmente en el contexto de la optimizacion El segundo punto de vista es la vista probabilistico la variable aleatoria F f G displaystyle F f G depende de la variable aleatoria G g H displaystyle G g H Que depende de H h X displaystyle H h X Que depende de la variable aleatoria X displaystyle X Este punto de vista se encuentra mas comunmente en el contexto de modelos graficos Grafo de dependencias ANN Los dos puntos de vista son en gran medida equivalente En cualquier caso para esta arquitectura de red en particular los componentes de las capas individuales son independientes entre si por ejemplo los componentes de g displaystyle g son independientes entre si dada su aportacion h displaystyle h Esto permite naturalmente un grado de paralelismo en la ejecucion Las redes como la anterior se llaman comunmente alimentacion hacia delante porque su grafica es un grafo dirigido aciclico Las redes con ciclos se denominan comunmente recurrentes Tales redes se representan comunmente de la manera mostrada en la parte superior de la figura donde f displaystyle f se muestra como dependiente sobre si misma Sin embargo no se muestra una dependencia temporal implicita El aprendizaje Editar Lo que ha atraido el mayor interes en las redes neuronales es la posibilidad de aprendizaje Dada una determinada tarea a resolver y una clase de funciones F displaystyle F el aprendizaje consiste en utilizar un conjunto de observaciones para encontrar f F displaystyle f in F la cual resuelve la tarea de alguna forma optima Esto implica la definicion de una funcion de coste C F R displaystyle textstyle C F rightarrow mathbb R tal que para la solucion optima f C f C f f F displaystyle f C f leq C f forall f in F Es decir ninguna solucion tiene un costo menor que el costo de la solucion optima La funcion de coste C displaystyle textstyle C es un concepto importante en el aprendizaje ya que representa lo lejos que una solucion particular se encuentra de la solucion optima al problema a resolver Los algoritmos de aprendizaje buscan a traves del espacio de soluciones para encontrar una funcion que tiene el menor costo posible Dos representaciones separadas del recurrente grafico de dependencias ANN Para aplicaciones en las que la solucion es dependiente de algunos datos el costo debe ser necesariamente una funcion de las observaciones de lo contrario no estariamos modelando todo lo relacionado con los datos Con frecuencia se define como una estadistica a la que se pueden realizar solo aproximaciones Como un simple ejemplo considere el problema de encontrar el modelo f displaystyle f Lo que reduce al minimo C E f x y 2 displaystyle C E f x y 2 Para pares de datos x y displaystyle x y extraida de alguna distribucion D displaystyle D En situaciones practicas solo tendriamos N displaystyle N muestras de D displaystyle D y por tanto para el ejemplo anterior tendriamos solamente minimizar C i N i 1 N f x i y i 2 displaystyle C frac i N textstyle sum i 1 N displaystyle f x i y i 2 Por lo tanto el coste se reduce al minimo a traves de una muestra de los datos en lugar de toda la distribucion de la generacion de los datos Cuando N displaystyle N rightarrow infty alguna forma de aprendizaje automatico en linea debe ser utilizada donde el costo se reduce al minimo parcialmente como se ve cada nuevo ejemplo Mientras que la maquina de aprendizaje en linea se utiliza a menudo cuando D displaystyle D se fija es mas util en el caso en el que la distribucion cambia lentamente con el tiempo En los metodos de redes neuronales alguna forma de aprendizaje en linea de la maquina se utiliza con frecuencia para conjuntos de datos finitos La eleccion de una funcion de coste Editar Si bien es posible definir alguna funcion de coste con frecuencia un coste particular se utilizara ya sea porque tiene propiedades deseables tales como convexidad o porque surge de forma natural a partir de una formulacion particular del problema por ejemplo en una formulacion probabilistica la probabilidad posterior del modelo puede ser utilizada como un costo inverso En ultima instancia la funcion de coste dependera de la tarea deseada Paradigmas de aprendizaje Editar Hay tres grandes paradigmas de aprendizaje cada uno correspondiente a una tarea de aprendizaje abstracto en particular Estos son el aprendizaje supervisado el aprendizaje no supervisado y el aprendizaje por refuerzo El aprendizaje supervisado Editar En el aprendizaje supervisado se nos da una serie de ejemplos de pares x y x X y Y displaystyle x y x in X y in Y y el objetivo es encontrar una funcion f X Y displaystyle f X rightarrow Y en la clase permitido de funciones que corresponden con los ejemplos En otras palabras deseamos inferir el mapeo derivado de los datos la funcion de coste esta relacionado con la falta de coincidencia entre nuestro mapeo y los datos y contiene implicitamente el conocimiento previo sobre el dominio del problema 36 Un coste de uso comun es el error cuadratico medio que trata de minimizar el error cuadratico medio entre las salidas de la red f x displaystyle f x y el valor objetivo y displaystyle y sobre todos los pares ejemplares Cuando uno trata de minimizar este coste utilizando descenso de gradiente para la clase de las redes neuronales llamadas perceptrones multicapas MLP se obtiene el comun y bien conocido algoritmo de propagacion hacia atras para la formacion de redes neuronales Tareas que caen dentro del paradigma de aprendizaje supervisado son el reconocimiento de patrones tambien conocido como clasificacion y regresion tambien conocido como aproximacion de funcion El paradigma de aprendizaje supervisado es aplicable tambien a los datos secuenciales por ejemplo reconocimiento del habla del manuscrito y de gestos Esto se puede considerar como una forma de aprendizaje con un maestro en la forma de una funcion que proporciona informacion continua sobre la calidad de las soluciones obtenidas hasta el momento Aprendizaje no supervisado Editar En el aprendizaje no supervisado algunos datos x displaystyle x se da y la funcion de coste que se reduce al minimo que puede ser cualquier funcion de los datos x displaystyle x y la salida de la red f displaystyle f La funcion de coste depende de la tarea lo que estamos tratando de modelar y nuestros a priori suposiciones implicitas las propiedades de nuestro modelo sus parametros y las variables observadas Como un ejemplo trivial considere el modelo f x a displaystyle f x a donde a displaystyle a es una constante y el costo C E x f x 2 displaystyle C E x f x 2 Minimizar este coste nos dara un valor de a displaystyle a que es igual a la media de los datos La funcion de coste puede ser mucho mas complicado Su forma depende de la aplicacion por ejemplo en la compresion de que podria estar relacionado con la informacion mutua entre x displaystyle x y f x displaystyle f x Mientras que en la modelizacion estadistica que podria estar relacionado con la probabilidad posterior del modelo dados los datos tenga en cuenta que en estos dos ejemplos esas cantidades se maximizaria en lugar de reducirse al minimo Tareas que caen dentro del paradigma de aprendizaje no supervisado estan en generales de estimacion de problemas las aplicaciones incluyen el agrupamiento la estimacion de distribuciones estadisticas la compresion de datos y el filtrado bayesiano de spam Aprendizaje por refuerzo Editar En el aprendizaje por refuerzo los datos x displaystyle x por lo general no se dan pero generada por la interaccion de un agente con el medio ambiente En cada punto en el tiempo t displaystyle t El agente realiza una accion y t displaystyle y t y el medio ambiente genera una observacion x t displaystyle x t y un costo instantaneo c t displaystyle c t De acuerdo con algunas dinamicas por lo general desconocidos El objetivo es descubrir una politica para la seleccion de las acciones que minimiza una cierta medida de un costo a largo plazo por ejemplo el coste acumulativo esperado La dinamica del medio ambiente y el coste a largo plazo para cada politica general son desconocidos pero pueden ser estimados Mas formalmente el medio ambiente se modela como un proceso de decision de Markov MDP con los estados s 1 s n S displaystyle s1 s n in S y acciones a 1 a m A displaystyle a1 a m in A con las siguientes distribuciones de probabilidad la distribucion de costos instantanea P c t s t displaystyle P c t s t La distribucion de observacion P x t s t displaystyle P x t s t y la transicion P s t 1 s t a t displaystyle P s t 1 s t a t Mientras que una politica se define como la distribucion condicional sobre las acciones dadas las observaciones Tomados en conjunto los dos entonces definen una cadena de Markov MC El objetivo es descubrir la politica es decir el MC que minimice el costo RNAs se utilizan con frecuencia en el aprendizaje de refuerzo como parte del algoritmo general 37 38 La programacion dinamica se ha unido a las RNA dando la programacion neurodinamica por Bertsekas y Tsitsiklis 39 y se aplico problemas no lineales a la multi dimensionales tales como los implicados en enrutamiento de vehiculos gestion de los recursos naturales 40 41 o la medicina 42 debido a la capacidad de RNAs para mitigar las perdidas de precision incluso cuando la reduccion de la densidad de la red de discretizacion para aproximar numericamente la solucion de los problemas de control originales Tareas que caen dentro del paradigma de aprendizaje por refuerzo son problemas de control juegos y otras secuenciales tareas Tipo de entrada Editar Finalmente tambien se pueden clasificar las RNAs segun sean capaces de procesar informacion de distinto tipo en Redes analogicas procesan datos de entrada con valores continuos y habitualmente acotados Ejemplos de este tipo de redes son Hopfield Kohonen y las redes de aprendizaje competitivo Redes discretas procesan datos de entrada de naturaleza discreta habitualmente valores logicos booleanos Ejemplos de este segundo tipo de redes son las maquinas de Boltzmann y Cauchy y la red discreta de Hopfield Algoritmos de aprendizaje EditarEl entrenamiento de un modelo de red neuronal en esencia significa seleccionar un modelo de la serie de modelos permitidos o en un bayesiano marco la determinacion de una distribucion en el conjunto de modelos permitidos que minimiza el criterio de costo Hay numerosos algoritmos disponibles para la formacion de los modelos de redes neuronales la mayoria de ellos puede ser vista como una aplicacion directa de la teoria de optimizacion y la estimacion estadistica La mayoria de los algoritmos utilizados en las redes neuronales artificiales de formacion emplean alguna forma de descenso de gradiente utilizando propagacion hacia atras para calcular los gradientes reales Esto se hace simplemente tomando la derivada de la funcion de coste con respecto a los parametros de la red y a continuacion cambiando los parametros en una direccion relacionada al gradiente Los algoritmos de entrenamiento de propagacion hacia atras generalmente se clasifican en tres categorias Descenso del gradiente con tasa variable de aprendizaje y momentum retropropagacion elastica Rprop cuasi Newton Broyden Fletcher Goldfarb Shannon Metodo de la secante Levenberg Marquardt y gradiente conjugado actualizacion Fletcher Reeves actualizaacion Polak Ribiere Powell Beale reinicio gradiente conjugado escalado 43 Metodos evolutivos 44 de programacion de la expresion genica 45 de recocido simulado 46 de esperanza maximizacion los metodos no parametricos y la optimizacion por enjambre de particulas 47 son algunos otros metodos para la formacion de redes neuronales Algoritmo recursivo convergente de aprendizaje Editar Este es un metodo de aprendizaje especificamente desegnado para redes neuronales controladores de articulacion CMAC por sus siglas en ingles de modelo cerebelosa En 2004 un algoritmo recursivo de minimos cuadrados estaba introducido para formar en linea redes neuronales CMAC 48 Este algoritmo puede convergir en un solo paso y actualizar todos los pesos en un solo paso con cualquier dato nuevo de entrada Al principio este algoritmo tenia complejidad computacional de O N3 Basado en factorizacion QR este algoritmo recursivo de aprendizaje habia sido simplificado para hacerlo O N 49 El empleo de redes neuronales artificiales Editar Tal vez la mayor ventaja de las RNA es su capacidad de ser utilizado como un mecanismo de funcion de aproximacion arbitraria que aprende a partir de datos observados Sin embargo su uso no es tan sencillo y una relativamente buena comprension de la teoria subyacente es esencial Eleccion de modelo Esto dependera de la representacion de datos y la aplicacion Excesivamente complejos modelos tienden a conducir a problemas en el aprendizaje Algoritmo de aprendizaje Existen numerosas soluciones de compromiso entre los algoritmos de aprendizaje Casi cualquier algoritmo va a funcionar bien con los hiperparametros correctos para la formacion de un conjunto especifico de datos fijos Sin embargo la seleccion y el ajuste de un algoritmo para la formacion en datos no previstos requieren una cantidad significativa de experimentacion Robustez Si se seleccionan apropiadamente el modelo la funcion de coste y el algoritmo de aprendizaje la RNA resultante puede ser extremadamente robusta Con la aplicacion correcta las RNA pueden ser utilizadas de forma natural en el aprendizaje online y aplicaciones de grandes conjuntos de datos Su aplicacion sencilla y la existencia de dependencias en su mayoria locales expuestos en la estructura permiten implementaciones rapidas y paralelas en el hardware Aplicaciones EditarRNA las hacen bastante apropiadas para aplicaciones en las que no se dispone a priori de un modelo identificable que pueda ser programado pero se dispone de un conjunto basico de ejemplos de entrada previamente clasificados o no Asimismo son altamente robustas tanto al ruido como a la disfuncion de elementos concretos y son facilmente paralelizables Esto incluye problemas de clasificacion y reconocimiento de patrones de voz imagenes senales etc Asimismo se han utilizado para encontrar patrones de fraude economico hacer predicciones en el mercado financiero hacer predicciones de tiempo atmosferico etc Tambien se pueden utilizar cuando no existen modelos matematicos precisos o algoritmos con complejidad razonable por ejemplo la red de Kohonen ha sido aplicada con un exito mas que razonable al clasico problema del viajante un problema para el que no se conoce solucion algoritmica de complejidad polinomica Otro tipo especial de redes neuronales artificiales se ha aplicado en conjuncion con los algoritmos geneticos AG para crear controladores para robots La disciplina que trata la evolucion de redes neuronales mediante algoritmos geneticos se denomina Robotica Evolutiva En este tipo de aplicacion el genoma del AG lo constituyen los parametros de la red topologia algoritmo de aprendizaje funciones de activacion etc y la adecuacion de la red viene dada por la adecuacion del comportamiento exhibido por el robot controlado normalmente una simulacion de dicho comportamiento Aplicaciones de la vida real Editar Las tareas se aplican a las redes neuronales artificiales tienden a caer dentro de las siguientes categorias generales Aproximacion de funciones o el analisis de regresion incluyendo la prediccion de series temporales funciones de aptitud y el modelado Clasificacion incluyendo el reconocimiento de patrones y la secuencia de reconocimiento deteccion y de la toma de decisiones secuenciales Procesamiento de datos incluyendo el filtrado el agrupamiento la separacion ciega de las senales y compresion Robotica incluyendo la direccion de manipuladores y protesis Ingenieria de control incluyendo control numerico por computadora Las areas de aplicacion incluyen la identificacion de sistemas y el control control del vehiculo prediccion de trayectorias 50 el control de procesos manejo de recursos naturales la quimica cuantica juegos y la toma de decisiones backgammon ajedrez poquer el reconocimiento de patrones sistemas radar reconocimiento facial clasificacion de senales 51 reconocimiento de objetos y mas de reconocimiento de secuencia gesto voz reconocimiento de texto escrito a mano diagnostico medico aplicaciones financieras por ejemplo sistemas automatizados de comercio trading algoritmico mineria de datos o descubrimiento de conocimiento en bases de datos KDD la visualizacion traduccion automatica diferenciando entre informes deseados y no deseados en redes sociales 52 prevencion de spam correo basura de correo electronico Las redes neuronales artificiales se han utilizado tambien para el diagnostico de varios tipos de cancer Un sistema de deteccion de cancer de pulmon hibrido basado ANN llamado HLND mejora la precision del diagnostico y la velocidad de la radiologia cancer de pulmon Estas redes tambien se han utilizado para diagnosticar el cancer de prostata Los diagnosticos se pueden utilizar para hacer modelos especificos tomados de un gran grupo de pacientes en comparacion con la informacion de un paciente dado Los modelos no dependen de suposiciones acerca de las correlaciones de diferentes variables El cancer color rectal tambien se ha previsto el uso de las redes neuronales Las redes neuronales podrian predecir el resultado de un paciente con cancer color rectal con mas precision que los metodos clinicos actuales Despues del entrenamiento las redes podrian predecir multiples resultados de los pacientes de instituciones relacionadas Las redes neuronales y la neurociencia Editar La Neurociencia Teorica y computacional son el ambito en que se trata del analisis teorico y el modelado computacional de sistemas neuronales biologicos Dado que los sistemas neurales estan intimamente relacionados con los procesos cognitivos y de comportamiento el campo esta muy relacionada con el modelado cognitivo y conductual El objetivo del campo es la creacion de modelos de sistemas neuronales biologicas con el fin de comprender como funcionan los sistemas biologicos Para ganar este entendimiento los neurologos se esfuerzan por hacer un vinculo entre los procesos biologicos observados datos biologicamente plausibles mecanismos para el procesamiento neuronal y aprendizaje redes neuronales biologicas modelos y la teoria la teoria del aprendizaje estadistico y la teoria de la informacion Tipos de modelosMuchos modelos se utilizan en el campo que se define en diferentes niveles de abstraccion y el modelado de diferentes aspectos de los sistemas neurales Se extienden desde modelos del comportamiento a corto plazo de las neuronas individuales tras los modelos del surgimiento de la dinamica de los circuitos neuronales de la interaccion entre las neuronas individuales hasta finalmente los modelos del surgimiento del comportamiento de los modulos neuronales abstractos que representan subsistemas completas Estos incluyen modelos de plasticidad de largo y corto plazo y de los sistemas neuronales y sus relaciones con el aprendizaje y la memoria de la neurona individual a nivel del sistema Las redes con memoriaLa integracion de los componentes de memoria externa con redes neuronales artificiales tiene una larga historia que se remonta a las primeras investigaciones en las representaciones distribuidas y mapas de auto organizacion Por ejemplo en memoria distribuida dispersa los patrones codificados por las redes neuronales se utilizan como direcciones de memoria para la memoria de contenido direccionable con neuronas que sirven esencialmente como direccion codificadores y decodificadores Mas recientemente aprendizaje profundo ha demostrado ser util enhashing semantica donde un profundo modelo grafico de los vectores de palabra de recuento de se obtiene a partir de un gran conjunto de documentos Los documentos se asignan a las direcciones de memoria de tal manera que los documentos semanticamente similares se encuentran en direcciones cercanas Documentos similares a un documento de consulta a continuacion se pueden encontrar simplemente accediendo a todas las direcciones que difieren por solo unos pocos bits de la direccion del documento de consulta Redes de memoria es otra extension de las redes neuronales que incorporan la memoria a largo plazo que fue desarrollado por Facebook investigacion 53 La memoria a largo plazo puede ser leido y escrito para con el objetivo de utilizarlo para la prediccion Estos modelos se han aplicado en el contexto de la busqueda de respuestas QA donde la memoria a largo plazo que de hecho actua como un dinamico base de conocimientos y la salida es una respuesta textual Maquinas de Turing neuronales desarrollados por Google DeepMind permiten ampliar las capacidades de las redes neuronales profundas mediante el acoplamiento a los recursos de memoria externos que pueden interactuar con los procesos atencionales El sistema combinado es analogo a una maquina de Turing pero es diferenciable de extremo a extremo lo que le permite ser entrenado de manera eficiente con descenso del gradiente Los resultados preliminares demuestran que las maquinas de Turing neuronales puede deducir algoritmos simples tales como copiar clasificar y recuerdo asociativo a partir de ejemplos de entrada y salida Computadoras neuronales diferenciables DNC son una extension de las maquinas de Turing neuronal tambien de DeepMind Se han realizado fuera de las maquinas de Turing neuronales la memoria de largo a corto plazo los sistemas y redes de la memoria en las tareas de procesamiento de secuencia Software de red neuronalSoftware de la red neuronal se utiliza para simular investigacion desarrollo y aplicacion de redes neuronales artificiales redes neuronales biologicas y en algunos casos una gama mas amplia de sistemas adaptativos Tipos de redes neuronales artificialesTipos de redes neuronales artificiales varian de aquellos con solo una o dos capas de logica unica direccion para muchos bucles complejos multi direccionales de entrada de realimentacion y capas En general estos sistemas utilizan algoritmos en su programacion para determinar el control y la organizacion de sus funciones La mayoria de los sistemas utilizan pesos para cambiar los parametros del rendimiento y las diferentes conexiones con las neuronas Las redes neuronales artificiales pueden ser autonomas y aprender mediante el aporte de maestros externos o incluso auto ensenanza de las reglas escritas de entrada Redes neuronales estilo Cubo Neural primera por primera vez por Gianna Giavelli proporcionan un espacio dinamico en el que las redes se recombinan dinamicamente informacion y enlaces a traves de miles de millones de nodos independientes que utilizan la adaptacion neuronal darwinismo una tecnica desarrollada por Gerald Edelman que permite sistemas mas modeladas biologicamente Potencia del calculo EditarEl perceptron multicapa es un aproximado de la funcion universal como lo demuestra el teorema de aproximacion universal Sin embargo la prueba no es constructivo sobre el numero de neuronas es necesario la topologia de red la configuracion de los pesos y los parametros de aprendizaje El trabajo de Hava Siegelmann y Eduardo D Sontag ha proporcionado una prueba de que una arquitectura especifica recurrente con los pesos valorados racionales en oposicion a la precision total numero real valued pesos tiene toda la potencia de una maquina universal de Turing 59 utilizando un numero finito de las neuronas y las conexiones lineales estandar Ademas se ha demostrado que el uso de valores irracionales para resultados pesos en una maquina con super Turing poder CapacidadLos modelos de redes neuronales artificiales tienen una propiedad denominada capacidad que corresponde aproximadamente a su capacidad para modelar cualquier funcion dada Se relaciona con la cantidad de informacion que puede ser almacenada en la red y a la nocion de complejidad ConvergenciaNada se puede decir en general sobre la convergencia ya que depende de una serie de factores En primer lugar pueden existir muchos minimos locales Esto depende de la funcion de coste y el modelo En segundo lugar el metodo de optimizacion utilizado no puede ser garantizado a converger cuando lejos de un minimo local En tercer lugar para una cantidad muy grande de datos o parametros algunos metodos se vuelven poco practico En general se ha encontrado que las garantias teoricas sobre la convergencia son una guia fiable para la aplicacion practica Generalizacion y estadisticasEn aplicaciones donde el objetivo es crear un sistema que generaliza bien en los ejemplos que no se ven ha surgido el problema de la formacion excesiva Esto surge en los sistemas complicados o sobre especificadas cuando la capacidad de la red supera significativamente los parametros libres necesarios Hay dos escuelas de pensamiento para evitar este problema La primera es utilizar la validacion cruzada tecnicas similares y para comprobar la presencia de un exceso de entrenamiento y de manera optima seleccione hiper tales que se minimice el error de generalizacion La segunda es utilizar algun tipo de regularizacion Este es un concepto que surge de manera natural en un marco probabilistico Bayesiano donde la regularizacion puede realizarse mediante la seleccion de una probabilidad a priori mas grande sobre los modelos mas simples sino tambien en la teoria estadistica de aprendizaje donde el objetivo es reducir al minimo mas de dos cantidades el riesgo empirico y el riesgo estructural que corresponde aproximadamente al error sobre el conjunto de entrenamiento y el error de prediccion en los datos que no se ven debido a sobreajuste Redes neuronales supervisadas que utilicen un error cuadratico medio MSE funcion de coste se pueden utilizar metodos estadisticos formales para determinar la confianza del modelo entrenado El MSE en un conjunto de validacion se puede utilizar como una estimacion de la varianza Este valor puede ser utilizado para calcular el intervalo de confianza de la salida de la red suponiendo una distribucion normal Un analisis de confianza realizado de esta manera es estadisticamente valida siempre que la salida de distribucion de probabilidad sigue siendo el mismo y la red no es modificada Analisis de confianza de una red neuronal Mediante la asignacion de una funcion de activacion softmax una generalizacion de la funcion logistica en la capa de salida de la red neuronal o un componente softmax en una red neuronal basada en componentes para las variables categoricas de destino las salidas se pueden interpretar como las probabilidades Esto es muy util en la clasificacion ya que da una medida de la seguridad en las clasificaciones La funcion de activacion softmax es y i e x i j 1 c e x j displaystyle y i frac e x i sum limits j 1 c e x j La critica EditarCuestiones de capacitacion Editar Una critica comun de las redes neuronales en particular en la robotica es que requieren una gran diversidad de entrenamiento para el funcionamiento del mundo real Esto no es sorprendente ya que cualquier maquina de aprendizaje necesita suficientes ejemplos representativos con el fin de capturar la estructura subyacente que le permite generalizar a nuevos casos Dean A Powerless en su investigacion presentada en el documento Formacion basada en el conocimiento de redes neuronales artificiales para la conduccion autonoma del robot utiliza una red neuronal para entrenar a un vehiculo robotico para conducir en multiples tipos de carreteras de un solo carril varios carriles suciedad etc Una gran cantidad de su investigacion esta dedicada a 1 la extrapolacion de multiples escenarios de entrenamiento a partir de una sola experiencia de formacion y 2 la preservacion de la diversidad de entrenamiento pasado para que el sistema no se convierta en sobre entrenamiento si por ejemplo se presenta con una serie de giros a la derecha no debe aprender a girar siempre a la derecha Estos problemas son comunes en las redes neuronales que debe decidir de entre una amplia variedad de respuestas pero se pueden tratar de varias maneras por ejemplo por revolver al azar los ejemplos de entrenamiento mediante el uso de un algoritmo de optimizacion numerica que no toma demasiado grandes pasos cuando el cambio de las conexiones de red siguiendo un ejemplo o mediante la agrupacion de ejemplos en los llamados mini lotes Cuestiones teoricas Editar AK Dewdney un cientifico matematico e informatica de la Universidad de Ontario Occidental y ex Scientific American columnista escribio en 1997 A pesar de que las redes neurales hacen resolver algunos problemas de juguete su poder de computacion son tan limitados que me sorprende que nadie los toma en serio como una herramienta general de resolucion de problemas No existe una red neuronal nunca se ha demostrado que resuelve los problemas computacionalmente dificiles tales como la N Queens problema el problema del viajante de comercio o el problema de factorizar enteros grandes Aparte de su utilidad una objecion fundamental a las redes neuronales artificiales es que no logran reflejar como funcionan las neuronas reales Propagacion hacia atras esta en el corazon de las redes neuronales artificiales y la mayoria no solo no hay evidencia de ningun mecanismo de este tipo de redes neuronales naturales 54 parece contradecir el principio fundamental de las neuronas reales que la informacion solo puede fluir hacia adelante a lo largo del axon Como la informacion esta codificada por las neuronas reales aun no se conoce Lo que se sabe es que las neuronas sensoriales disparan potenciales de accion con mayor frecuencia con la activacion del sensor y las celulas musculares tiran mas fuertemente cuando sus neuronas motoras asociadas reciben los potenciales de accion con mas frecuencia 55 Aparte del caso mas simple de solo transmision de informacion de una neurona a un sensor de la neurona motora casi nada se conoce de los principios generales subyacentes de como se maneja la informacion por las redes neuronales reales El proposito de las redes neuronales artificiales no es necesariamente replicar la funcion neural real sino inspirarse en redes neuronales naturales como acercamiento a una computacion inherentemente paralela que proporcione soluciones a problemas que hasta ahora han sido intratables Por tanto una afirmacion central de las redes neuronales artificiales es que encarna algun principio general nuevo y potente para el procesamiento de la informacion Por desgracia estos principios generales estan mal definidos y que a menudo se afirma que son emergentes de la red neuronal en si Esto permite la asociacion estadistica sencilla la funcion basica de las redes neuronales artificiales que se describe como el aprendizaje o el reconocimiento Como resultado las redes neuronales artificiales tienen segun Dewdney un algo para nada la calidad que imparte un aura peculiar de la pereza y una clara falta de curiosidad acerca de lo bien que estos sistemas de computacion son Ninguna mano humana o la mente interviene soluciones Se encuentran como por arte de magia y nadie al parecer ha aprendido nada 56 Los problemas de hardwarePara implementar software de redes neuronales grandes y eficaces deben emplearse considerables recursos de procesamiento y almacenamiento Mientras que el cerebro ha adaptado su hardware a la tarea de procesamiento de senales a traves de un Grafo de las neuronas simular incluso una forma simplificada en la arquitectura von Neumann puede obligar a un disenador de la red neural a utilizar muchos millones de filas de bases de datos para sus conexiones lo que puede consumir grandes cantidades de espacio de memoria RAM y disco duro Ademas el disenador de sistemas de redes neurales a menudo necesitara utilizar para simular la transmision de senales a traves de muchas de estas conexiones y sus neuronas asociadas una increible cantidad de potencia de procesamiento y tiempo de CPU Jurgen Schmidhuber toma nota de que el resurgimiento de las redes neuronales en el siglo XXI y su exito renovado en tareas de reconocimiento de imagen es atribuible en gran medida a los avances en el hardware de 1991 a 2015 el poder de computacion especialmente en lo entregado por GPGPUs en las GPU ha aumentado alrededor de un millon de veces por lo que el algoritmo de retropropagacion estandar viable para las redes de formacion que son varias capas mas profundas que antes pero anade que esto no resuelve los problemas algoritmicos tales como el problema del desvanecimiento de gradientes de una manera fundamental El uso de la GPU en lugar de CPUs ordinarios puede traer los tiempos de entrenamiento para algunas redes por debajo de los meses a meros dias Potencia de calculo sigue creciendo mas o menos de acuerdo con la Ley de Moore que puede proporcionar recursos suficientes para llevar a cabo nuevas tareas Ingenieria neuromorphic aborda la dificultad de hardware directamente mediante la construccion de chips de no von Neumann con circuitos disenados para implementar redes neuronales desde el principio Google tambien ha disenado un chip optimizado para el procesamiento de red neural llamado Unidad de Procesamiento Tensor o TPU Contraejemplos practicas a las criticasArgumentos en contra de la posicion de Dewdney son que las redes neuronales se han utilizado con exito para resolver muchas tareas complejas y diversas que van desde aviones que vuelan de forma autonoma para la deteccion de fraude de tarjetas de credito Escritor de tecnologia Roger Bridgman ha comentado las declaraciones de DEWDNEY sobre redes neuronales Las redes neuronales por ejemplo estan en el muelle no solo porque han sido promocionado al alto cielo lo que tiene no sino tambien porque se puede crear una red de exito sin la comprension de como funcionaba el monton de numeros que captura su comportamiento seria con toda probabilidad una mesa ilegible opaca sin valor como recurso cientifico A pesar de su enfatica declaracion de que la ciencia no es la tecnologia parece Dewdney aqui para ridiculizar a las redes neuronales como mala ciencia cuando la mayoria de los ideando ellos estan tratando de ser buenos ingenieros Una tabla puede leer que una maquina util podia leer todavia seria bien vale la pena tener Si bien es cierto que el analisis de lo que se ha aprendido por una red neuronal artificial es dificil es mucho mas facil de hacerlo que analizar lo que se ha aprendido por una red neuronal biologica Por otra parte los investigadores involucrados en la exploracion de algoritmos de aprendizaje para redes neuronales estan descubriendo gradualmente principios genericos que permiten que una maquina de aprendizaje tenga exito Por ejemplo Bengio y LeCun 2007 escribio un articulo sobre el aprendizaje locales vs No locales asi como poco profundas frente a la arquitectura de profundidad Enfoques hibridosAlgunas otras criticas que provienen de los defensores de los modelos hibridos combinacion de redes neuronales y enfoques simbolicos que creen que el intermix de estos dos enfoques puede capturar mejor los mecanismos de la mente humana ConclusionAunque en algunas facultades de informatica se sigue instruyendo en redes neuronales artificiales estas no disponen de un rigor cientifico claro y estan consideradas como una pseudociencia por la mayoria de cientificos e ingenieros Las clases y tipos de RNAs EditarRed Neural dinamico Red neuronal feedforward FNN Red neuronal recurrente RNN Red de Hopfield Maquina de Boltzmann Redes recurrentes simples Red estatal de eco Memoria a largo plazo corto Bidireccional RNN Jerarquica RNN Redes neuronales estocasticas Mapas autoorganizados de Kohnen Autoencoder Red neuronal probabilistica PNN Red neuronal de retardo de tiempo TDNN Red de realimentacion reguladora RFNN Estatica red neuronal Neocognitron Neurona de McCulloch Pitts Red de funcion de base radial RBF Aprender cuantificacion vectorial perceptron Modelo Adaline Red neuronal de convolucion CNN redes neuronales modulares Comite de las maquinas COM Red neuronal asociativa ASNN Memoria Red Google Google DeepMind Facebook MemNN Memoria asociativa holografica One shot memoria asociativa Maquina de Turing neuronal Teoria de la resonancia adaptativa la memoria temporal jerarquica Otros tipos de redes Redes neuronales entrenadas instantaneamente ITNN Red neuronal de impulsos SNN Impulsion codificados Redes Neuronales PCNN En cascada redes neuronales Redes Neuro Fuzzy Creciente de gas neural GNG Redes patron productoras de composicion Red de contrapropagacion Red neuronal oscilante Red neural hibrida Red neuronal fisica Red neuronal opticaEjemplos EditarQuake II Neuralbot Editar Un bot es un programa que simula a un jugador humano El Neuralbot es un bot para el juego Quake II que utiliza una red neuronal artificial para decidir su comportamiento y un algoritmo genetico para el aprendizaje Es muy facil probarlo para ver su evolucion Mas informacion aqui 1 Clasificador No Sesgado de Proteinas Editar Es un programa que combina diversas tecnicas computacionales con el objetivo de clasificar familias de proteinas Un posible metodo consiste en utilizar metricas adaptativas como por ejemplo mapas autoorganizados y algoritmos geneticos El problema de clasificacion no sesgada basada en la expresion de las proteinas en Aminoacidos puede reducirse conceptualmente a lo siguiente La identificacion de grupos de proteinas que compartan caracteristicas comunes La determinacion de las razones estructurales por las cuales las proteinas en cuestion se agrupan de la manera indicada Evitar la idea de establecer criterios de clasificacion sesgados fundamentados en ideas preconcebidas para lograr su clasificacion En este sentido hay dos asuntos que considerar Como lograr la caracterizacion de las proteinas de manera no sesgada Como lograr lo anterior sin apelar a medidas de agrupamiento que a su vez impliquen algun tipo de sesgo sobre dicho agrupamiento Las RNA han sido aplicadas a un numero en aumento de problemas en la vida real y de considerable complejidad donde su mayor ventaja es en la solucion de problemas que son bastante complejos para la tecnologia actual tratandose de problemas que no tienen una solucion algoritmica o cuya solucion algoritmica es demasiado compleja para ser encontrada En general debido a que son parecidas a las del cerebro humano las RNA son bien nombradas ya que son buenas para resolver problemas que el humano puede resolver pero las computadoras no Estos problemas incluyen el reconocimiento de patrones y la prediccion del tiempo De cualquier forma el humano tiene capacidad para el reconocimiento de patrones pero la capacidad de las redes neuronales no se ve afectada por la fatiga condiciones de trabajo estado emocional y compensaciones Se conocen cinco aplicaciones tecnologicas extendidas Reconocimiento de textos manuscritos Reconocimiento del habla Simulacion de centrales de produccion de energia Deteccion de explosivos Identificacion de blancos de radaresGaleria Editar Una sola capa de red neural artificial feedforward Flechas procedentes de x2 se omiten para mayor claridad Hay P entradas a esta red y salidas q En este sistema el valor de la salida q esima y qse calcula como y q K x i w iq b q Una red neuronal artificial feedforward de dos capas Una red artificial de alimentacion directa de una sola capa neuronal con 4 entradas 6 ocultos y 2 salidas Las salidas de estado y direccion determinada posicion de la rueda basan los valores de control Una red artificial de alimentacion directa de dos capas neuronales con 8 entradas 2x8 ocultos y 2 salidas Estado determinada posicion direccion y otro ambiente de valores Los valores de control basados en salidas empujador Indefinido IndefinidoHerramientas de software EditarExisten muchas herramientas de software que implementan redes neuronales artificiales tanto libres como comerciales como por ejemplo Emergent FANN Neural Designer NeuroIntelligence Neuroph NeuroSolutions Synapse OpenNNVease tambien EditarInteligencia artificial Dinamica de sistemas Sistema complejo Sistema dinamico Robotica evolutiva Conformacion de haces beamforming Cerebro artificial Redes neuronales convolucionales Perceptron multicapa Deep DreamReferencias Editar url http www itnuevolaredo edu mx takeyas apuntes Inteligencia 20Artificial Apuntes tareas alumnos RNA Redes 20Neuronales2 pdf historia de las redes neurales McCulloch Warren Walter Pitts 1943 A Logical Calculus of Ideas Immanent in Nervous Activity Bulletin of Mathematical Biophysics 5 4 115 133 doi 10 1007 BF02478259 Figueroba Alex Ley de Hebb la base neuropsicologica del aprendizaje Psicologia y mente Consultado el 24 de octubre de 2018 Hebb Donald 1949 The Organization of Behavior La Organizacion del Comportamiento Nueva York Wiley ISBN 978 1 135 63190 1 Republicacion del articulode Turing de 1948 Turing A M 1992 Collected works of AM Turing Mechanical Intelligence Obras colectivas de AM Turing Inteligencia mecanica en ingles Elsevier Science Publishers Webster C S 2012 Alan Turing s unorganized machines and artificial neural networks his remarkable early work and future possibilities Las maquinas desoranizadas y redes de neuronas artificiales de Alan Turing su notable trabajo inicial y posibilidades futuras posibilidades en ingles publicacion Evolutionary Intelligence 5 pp 35 43 Webster CS Alan Turing s unorganized machines and artificial neural networks his remarkable early work and future possibilities Evolutionary Intelligence 2012 5 35 43 Farley B G W A Clark 1954 Simulation of Self Organizing Systems by Digital Computer Simulacion de Sistemas Autoorganizadoras por Computadora Digital IRE Transactions on Information Theory 4 4 76 84 doi 10 1109 TIT 1954 1057468 Rochester N J H Holland L H Habit W L Duda 1956 Tests on a cell assembly theory of the action of the brain using a large digital computer Pruebas de una teoria de la accion del cerebro por asamblea de celulas usando una computadora digital grande IRE Transactions on Information Theory 2 3 80 93 doi 10 1109 TIT 1956 1056810 Matich Damian Jorge 2001 Redes Neuronales Conceptos Basicos y Aplicaciones PDF Buenos Aires Argentina p 6 Consultado el 26 de octubre de 2018 Rosenblatt F 1958 The Perceptron A Probabilistic Model For Information Storage And Organization In The Brain Psychological Review 65 6 386 408 PMID 13602029 doi 10 1037 h0042519 a b Werbos P J 1975 Beyond Regression New Tools for Prediction and Analysis in the Behavioral Sciences Harvard University Hubel David H Wiesel Torsten 2005 Brain and visual perception the story of a 25 year collaboration Cerebro y percepcion visual la historia de una colaboracion de 25 anos Oxford University Press US p 106 ISBN 978 0 19 517618 6 Schmidhuber J 2015 Deep Learning in Neural Networks An Overview Neural Networks 61 85 117 PMID 25462637 arXiv 1404 7828 doi 10 1016 j neunet 2014 09 003 Ivakhnenko A G 1973 Cybernetic Predicting Devices CCM Information Corporation Ivakhnenko A G Grigorʹevich Lapa Valentin 1967 Cybernetics and forecasting techniques American Elsevier Pub Co Minsky Marvin Papert Seymour 1969 Perceptrons An Introduction to Computational Geometry MIT Press ISBN 0 262 63022 2 Rumelhart D E McClelland James 1986 Parallel Distributed Processing Explorations in the Microstructure of Cognition Cambridge MIT Press ISBN 978 0 262 63110 5 Qian N Sejnowski T J 1988 Predicting the secondary structure of globular proteins using neural network models Journal of Molecular Biology 202 865 884 Qian1988 Rost B Sander C 1993 Prediction of protein secondary structure at better than 70 accuracy Journal of Molecular Biology 232 584 599 Rost1993 Weng J Ahuja N Huang T S 1992 Cresceptron a self organizing neural network which grows adaptively Proc International Joint Conference on Neural Networks Baltimore Maryland 1 576 581 Weng J Ahuja N Huang T S 1993 Learning recognition and segmentation of 3 D objects from 2 D images Proc 4th International Conf Computer Vision Berlin Alemania 121 128 Weng J Ahuja N Huang T S 1997 Learning recognition and segmentation using the Cresceptron International Journal of Computer Vision 25 2 105 139 Scherer Dominik Muller Andreas C Behnke Sven 2010 Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition 20th International Conference Artificial Neural Networks ICANN 92 101 doi 10 1007 978 3 642 15825 4 10 S Hochreiter Untersuchungen zu dynamischen neuronalen Netzen Diploma thesis Institut f Informatik Technische Univ Munich Advisor J Schmidhuber 1991 Hochreiter S et al 15 de enero de 2001 Gradient flow in recurrent nets the difficulty of learning long term dependencies En Kolen John F Kremer Stefan C eds A Field Guide to Dynamical Recurrent Networks John Wiley amp Sons ISBN 978 0 7803 5369 5 J Schmidhuber Learning complex extended sequences using the principle of history compression Neural Computation 4 pp 234 242 1992 Behnke Sven 2003 Hierarchical Neural Networks for Image Interpretation Lecture Notes in Computer Science 2766 Springer Yang J J Pickett M D Li X M Ohlberg D A A Stewart D R Williams R S 2008 Memristive switching mechanism for metal oxide metal nanodevice Nat Nanotechnol 3 429 433 doi 10 1038 nnano 2008 160 Strukov D B Snider G S Stewart D R Williams R S 2008 The missing memristor found Nature 453 7191 80 83 Bibcode 2008Natur 453 80S PMID 18451858 doi 10 1038 nature06932 Ciresan Dan Claudiu Meier Ueli Gambardella Luca Maria Schmidhuber Jurgen 21 de septiembre de 2010 Deep Big Simple Neural Nets for Handwritten Digit Recognition Neural Computation 22 12 3207 3220 ISSN 0899 7667 doi 10 1162 neco a 00052 Yang J J Pickett M D Li X M Ohlberg D A A Stewart D R Williams R S 2008 Memristive switching mechanism for metal oxide metal nanodevices Nat Nanotechnol 3 7 429 433 doi 10 1038 nnano 2008 160 Strukov D B Snider G S Stewart D R Williams R S 2008 The missing memristor found Nature 453 7191 80 83 Bibcode 2008Natur 453 80S PMID 18451858 doi 10 1038 nature06932 Ciresan Dan Meier Ueli Masci Jonathan Schmidhuber Jurgen Agosto de 2012 Multi column deep neural network for traffic sign classification Neural Networks Selected Papers from IJCNN 2011 32 333 338 doi 10 1016 j neunet 2012 02 023 Ciresan Dan Giusti Alessandro Gambardella Luca M Schmidhuber Juergen 2012 Pereira F Burges C J C Bottou L et al eds Advances in Neural Information Processing Systems 25 Curran Associates Inc pp 2843 2851 Se sugiere usar numero editores ayuda The Machine Learning Dictionary Archivado desde el original el 26 de agosto de 2018 Consultado el 19 de septiembre de 2018 Ojha Varun Kumar Abraham Ajith Snasel Vaclav 1 de abril de 2017 Metaheuristic design of feedforward neural networks A review of two decades of research Engineering Applications of Artificial Intelligence 60 97 116 doi 10 1016 j engappai 2017 01 013 Dominic S Das R Whitley D Anderson C July 1991 Genetic reinforcement learning for neural networks IJCNN 91 Seattle International Joint Conference on Neural Networks Seattle Washington USA IEEE ISBN 0 7803 0164 1 doi 10 1109 IJCNN 1991 155315 Hoskins J C Himmelblau D M 1992 Process control via artificial neural networks and reinforcement learning Computers amp Chemical Engineering 16 4 241 251 doi 10 1016 0098 1354 92 80045 B Bertsekas D P Tsitsiklis J N 1996 Neuro dynamic programming Athena Scientific p 512 ISBN 1 886529 10 8 de Rigo D Rizzoli A E Soncini Sessa R Weber E Zenesi P 2001 Neuro dynamic programming for the efficient management of reservoir networks Proceedings of MODSIM 2001 International Congress on Modelling and Simulation Canberra Australia Modelling and Simulation Society of Australia and New Zealand ISBN 0 867405252 doi 10 5281 zenodo 7481 Consultado el 29 de julio de 2012 Damas M Salmeron M Diaz A Ortega J Prieto A Olivares G 2000 Genetic algorithms and neuro dynamic programming application to water supply networks Proceedings of 2000 Congress on Evolutionary Computation La Jolla California USA IEEE ISBN 0 7803 6375 2 doi 10 1109 CEC 2000 870269 Deng Geng Ferris M C 2008 Neuro dynamic programming for fractionated radiotherapy planning Springer Optimization and Its Applications Springer Optimization and Its Applications 12 47 70 ISBN 978 0 387 73298 5 doi 10 1007 978 0 387 73299 2 3 M Forouzanfar H R Dajani V Z Groza M Bolic S Rajan July 2010 Comparison of Feed Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation Arad Romania IEEE de Rigo D Castelletti A Rizzoli A E Soncini Sessa R Weber E January 2005 A selective improvement technique for fastening Neuro Dynamic Programming in Water Resources Network Management En Pavel Zitek ed Proceedings of the 16th IFAC World Congress IFAC PapersOnLine Prague Czech Republic IFAC 16 ISBN 978 3 902661 75 3 doi 10 3182 20050703 6 CZ 1902 02172 Consultado el 30 de diciembre de 2011 Ferreira C 2006 Designing Neural Networks Using Gene Expression Programming In A Abraham B de Baets M Koppen and B Nickolay eds Applied Soft Computing Technologies The Challenge of Complexity pages 517 536 Springer Verlag Da Y Xiurun G July 2005 An improved PSO based ANN with simulated annealing technique En T Villmann ed New Aspects in Neurocomputing 11th European Symposium on Artificial Neural Networks Elsevier doi 10 1016 j neucom 2004 07 002 Wu J Chen E May 2009 Wang H Shen Y Huang T Zeng Z ed A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network Springer ISBN 978 3 642 01215 0 doi 10 1007 978 3 642 01513 7 6 Ting Qin et al A learning algorithm of CMAC based on RLS Neural Processing Letters 19 1 2004 49 61 Ting Qin et al Continuous CMAC QRLS and its systolic array Neural Processing Letters 22 1 2005 1 16 Zissis Dimitrios October 2015 A cloud based architecture capable of perceiving and predicting multiple vessel behaviour Applied Soft Computing 35 652 661 doi 10 1016 j asoc 2015 07 002 Sengupta Nandini Sahidullah Md Saha Goutam August 2016 Lung sound classification using cepstral based statistical features Computers in Biology and Medicine 75 1 118 129 doi 10 1016 j compbiomed 2016 05 013 Schechner Sam 15 de junio de 2017 Facebook Boosts A I to Block Terrorist Propaganda Wall Street Journal en ingles estadounidense ISSN 0099 9660 Consultado el 16 de junio de 2017 https nmas1 org news 2018 06 22 fb musica ra tecnologia Crick Francis 1989 The recent excitement about neural networks Nature 337 6203 129 132 Bibcode 1989Natur 337 129C PMID 2911347 doi 10 1038 337129a0 Adrian Edward D 1926 The impulses produced by sensory nerve endings The Journal of Physiology 61 1 49 72 PMC 1514809 PMID 16993776 doi 10 1113 jphysiol 1926 sp002273 Dewdney A K 1 de abril de 1997 Yes we have no neutrons an eye opening tour through the twists and turns of bad science Wiley p 82 ISBN 978 0 471 10806 1 Enlaces externos Editar Wikimedia Commons alberga una galeria multimedia sobre Red neuronal artificial Tutorial de la Universidad Politecnica de Madrid espanol Introduccion a las redes de neuronas artificiales espanol Articulos sobre redes neuronales artificiales ingles Sitio web sobre redes neuronales artificiales ejemplos y aplicaciones espanol Introduccion a las Redes Neuronales y sus Modelos espanol Sistema nervioso artificial Que son las redes neuronales espanol neural network repositorio en GitHub PHP Entiende como funcionan las redes neuronales en menos de 10 minutos espanol Datos Q192776 Multimedia Artificial neural networksObtenido de https es wikipedia org w index php title Red neuronal artificial amp oldid 136751584, wikipedia, wiki, leyendo, leer, libro, biblioteca,

español

, española, descargar, gratis, descargar gratis, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, imagen, música, canción, película, libro, juego, juegos