¿Cómo aprende una neurona individual?

¡Buena pregunta!

Mi respuesta de una línea sería que el cerebro a menudo tiene una autoridad externa, ¡y ese es el mundo externo en sí mismo!

Hay tres categorías amplias de aprendizaje utilizadas en redes neuronales artificiales (ANN):

  • Aprendizaje supervisado : ejemplos explícitos de cada categoría se muestran al modelo. El modelo aprende por imitación / emulación .
  • Aprendizaje no supervisado : el modelo solo recibe ejemplos y debe categorizarlos en función del espacio de características de los ejemplos. El modelo aprende encontrando regularidades estadísticas en el espacio de características.
  • Aprendizaje de refuerzo: en lugar de dar ejemplos explícitos de comportamiento correcto, da “refuerzos”: recompensas y castigos por el comportamiento correcto e incorrecto (o exitoso y no exitoso), respectivamente. El modelo aprende por ensayo y error .

Algunas personas promueven el aprendizaje por refuerzo bajo aprendizaje supervisado, ya que parece haber un maestro en ambos casos. Pero la diferencia clave es que en el aprendizaje supervisado se proporcionan soluciones explícitas , mientras que en el aprendizaje por refuerzo solo se tienen en cuenta las consecuencias generales del comportamiento. se introducen de nuevo en el sistema. El aprendizaje por refuerzo es particularmente útil cuando el espacio de la solución es vasto y / o desconocido. El sistema solo puede explorar y ganar experiencia de prueba y error. Por el contrario, el aprendizaje supervisado solo se puede utilizar cuando el profesor sabe cuál debe ser el resultado deseado.

Todos estos tipos de aprendizaje se pueden discernir en los sistemas biológicos.

Cuando un estudiante aprende a imitar a un maestro, eso es aprendizaje supervisado. Esto se muestra en el aprendizaje de idiomas, entrenamiento musical y diversas habilidades motoras. Aprender por repetición y memorización es todavía muy común en todo el mundo. Algunos tipos de habilidades abstractas de resolución de problemas también pueden implicar procedimientos o algoritmos de imitación. También puedes ver que este tipo de aprendizaje son los pájaros cantores.

Cuando un estudiante aprende simplemente trabajando con ejemplos en ausencia de un maestro o una señal de refuerzo, eso es aprendizaje no supervisado. Entonces, cuando desarrolla un sistema implícito de categorización / comparación para la comida, la música o el arte, parece que confía, al menos en parte, en el aprendizaje no supervisado. Este tipo de aprendizaje parece ocurrir también en los animales. Los animales exploran y se adaptan, y pueden aprender incluso sin el enfoque de la zanahoria y el palo. (Los dos enfoques computacionales con los que estoy familiarizado que parecen neurobiológicamente plausibles son los mapas autoorganizados y la teoría de la resonancia adaptativa. Probablemente hay muchos más enfoques).

En los sistemas biológicos tiene sentido vincular el aprendizaje por refuerzo con un concepto llamado “condicionamiento”. Hay dos tipos generales de condicionamiento:

  • El condicionamiento clásico o pavoloviano implica asociar un estímulo “neutral” con una recompensa o un castigo. Los famosos experimentos de Ivan Pavlov con perros involucraban tocar una campana antes de alimentar a un perro. El perro saliva naturalmente en anticipación a la comida, y después de las asociaciones repetidas entre el estímulo (campana) y la recompensa (comida), la campana sola puede desencadenar la respuesta de salivación, incluso si no hay olor a comida en ninguna parte. Así que el condicionamiento clásico implica Formando asociaciones entre estímulos y resultados.
  • El condicionamiento operante implica Formando asociaciones entre acciones y resultados . Así que se asemeja mucho más al aprendizaje por refuerzo en sistemas artificiales. Si le das una golosina a un perro cada vez que recupera una pelota, realizará esta tarea de manera más confiable cuando lances la pelota.

Los neurocientíficos estudian cómo estos fenómenos psicológicos / conductuales de alto nivel se implementan en las neuronas. La teoría más común es que el aprendizaje a nivel de las neuronas se produce a través de la plasticidad sináptica, la modificación a corto o largo plazo del tamaño (y, por lo tanto, la fuerza) de las conexiones entre las neuronas. Se pueden implementar varias reglas de aprendizaje sináptico en redes neuronales biológicas *. Los modelos neurobiológicamente plausibles de los tipos de aprendizaje y condicionamiento enumerados anteriormente se construyen de manera rutinaria. También hay formas de plasticidad no sináptica que pueden ser importantes para el aprendizaje biológico.

Cómo los humanos y otros animales aprenden y se comportan exactamente es, por supuesto, un problema abierto. Probablemente necesitemos una perspectiva mucho más experimental y teórica antes de poder explicar realmente el aprendizaje biológico.


Notas

* El aprendizaje sináptico es un gran tema. Echa un vistazo a esta respuesta para obtener más detalles sobre las reglas de aprendizaje sináptico:

¿Cuál es el estado del arte en el aprendizaje de Hebbian (aplicado tanto a la inteligencia natural como a la artificial)?

Estas respuestas también pueden ser relevantes:

¿Qué tan similares son el funcionamiento de las redes neuronales artificiales (NN) y la del cerebro humano? ¿Cómo es eso?

¿Cuál es la base molecular de la memoria? ¿Cómo se crean, almacenan y recuperan los recuerdos a nivel molecular?

¿Cuánto tiempo tarda la neuroplasticidad en cambiar significativamente la estructura del cerebro y las formas en que pensamos?

¿Cuándo ocurre la neuroplasticidad y bajo qué condiciones?

Esta es una de las preguntas clave para entender el cerebro.

El cerebro está resolviendo un problema global (optimizando para la supervivencia) y, sin embargo, las neuronas deben aprender solo de la información local recibida en sus sinapsis. Además, el cerebro debe “mejorar” sin haber recibido nunca las “respuestas correctas” de las que aprender.

¿Cómo lo hacen las neuronas?

En la teoría del aprendizaje estadístico, se hace una distinción entre “aprendizaje supervisado”, donde al agente o sistema de aprendizaje se le dan las respuestas correctas al modelo, y “aprendizaje no supervisado” donde el sistema de aprendizaje encuentra patrones estructurales por sí solo sin orientación.

Ha habido un extenso trabajo reciente sobre el aprendizaje no supervisado porque, desde la perspectiva del cerebro, no hay un “conjunto de entrenamiento” para aprender. El objetivo del aprendizaje no supervisado a menudo es encontrar componentes estadísticamente “independientes” dentro de la señal de entrada, y recientemente se han desarrollado algunas técnicas que pueden lograr esto dentro de las redes de las neuronas espigadas de tipo “biológico”.

Sin embargo, el debate entre aprendizaje supervisado y no supervisado a veces puede convertirse en dogmático, y el mundo no es tan simple.

Por ejemplo, se podría argumentar que la evolución nos ha conectado con señales de retroalimentación que indican el camino hacia respuestas “correctas” e “incorrectas” a medida que nuestro cerebro se enfrenta a comprender el entorno. Cuando encontramos comida y sentimos menos hambre, nuestro cuerpo le da al cerebro la señal de que algo bueno sucedió. Y así aprendemos a hacer más de eso. La idea del aprendizaje por refuerzo es construir hacia atrás a partir de objetivos básicos, como comer cuando tiene hambre y evitar el dolor, a objetivos intermedios, básicamente cualquier cosa que conduzca a esas cosas.

Es muy probable que las redes neuronales en el cerebro encuentren patrones en el entorno utilizando una combinación de señales.

Un tipo de señal es puramente estadístico : frecuencia de ocurrencia y coincidencia. Las neuronas son excelentes detectores de coincidencia, y con las reglas de aprendizaje correctas en las redes, son excelentes para acumular y modelar estadísticas de frecuencia. Un patrón que es muy frecuente en un nivel puede ser un bloque de construcción para encontrar coincidencias en otro nivel.

El otro tipo de referencia es la retroalimentación del resultado . Básicamente, el cerebro (y los circuitos neuronales que lo componen) quieren poder predecir los resultados. El cerebro también quiere resolver el problema inverso: comenzar desde un resultado deseado (una meta) y trabajar hacia atrás para seguir los pasos de acción que lograrán esa meta. Para lograr esto, los patrones estadísticos que se registran en la dirección de avance se utilizan para calcular la dirección de retroceso para seleccionar una acción. Este es básicamente el proceso de aprendizaje por refuerzo, y en el cerebro, el neurotransmisor dopamina se ha implicado en el control de la señal de retroalimentación de “recompensa” que prioriza qué patrones de acción repetir y cuáles evitar.

Otro tipo de referencia es la intersección de la generación de modelos de arriba hacia abajo con la entrada de percepción de abajo hacia arriba . El objetivo aquí es encontrar un modelo de alto nivel del mundo que pueda codificar y predecir la entrada perceptiva de la manera más concisa posible. Tal modelo naturalmente “dividirá el mundo en sus articulaciones”, descubriendo objetos, sus relaciones entre sí y su relación con la supervivencia. La inferencia bayesiana es popular cuando se observa este aspecto de la detección y predicción de patrones en redes neuronales.

Bajando al nivel de la neurona individual , cada neurona recibe muchas señales de retroalimentación para guiar su aprendizaje. Un tipo de retroalimentación es la relación entre sus entradas y su propia salida. La plasticidad dependiente del tiempo de espiga (STDP, por sus siglas en inglés) ocurre en el cerebro y hace que las neuronas solo favorezcan entradas que predijeron su propia salida. Con el tiempo, esto hará que la neurona se especialice en encontrar patrones de entrada estadísticamente frecuentes pero únicos. Las neuronas también obtienen señales de retroalimentación globales, por ejemplo, en forma de dopamina para el aprendizaje por refuerzo. Y las neuronas también pueden obtener otros tipos de retroalimentación, por ejemplo, inducidas por la relación de fase entre su propio disparo y la oscilación de la población local dominante.

Dando un paso atrás, lo que está sucediendo es que los determinantes generales de la supervivencia se están traduciendo, en etapas, hasta “gradiantes de adaptación” al nivel de las neuronas. Cada neurona aprende moviéndose a lo largo del gradiente de mejora como se define en las reglas de aprendizaje sináptico. A nivel de red y sistema, esto se traduce en una optimización del comportamiento a lo largo del tiempo.

Relacionado
¿Qué sustancias químicas utilizan nuestras neuronas para almacenar nuestros recuerdos?
¿Se almacenan los recuerdos físicamente?
¿Una neurona individual es consciente de sus neuronas vecinas? Si es así, ¿cuál es su grado de conciencia?
¿Cuáles son algunos buenos materiales introductorios sobre neurociencia computacional?
¿El cerebro humano es análogo o digital?