¿Cambiará el aprendizaje profundo?

Trabajo con redes neuronales computacionales biológicas, por lo que he pasado mucho tiempo pensando en cómo aprende el cerebro a realizar tareas complejas. Si bien la investigación de redes neuronales artificiales se ha diferenciado significativamente de la neurociencia computacional, todavía tiene mucho que aprender acerca de cómo emergen las capacidades cognitivas de los sistemas neuronales. Mencionaré dos estrategias que aún no están implementadas extensivamente en sistemas artificiales:

Especialización en arquitectura de redes [1] [2] [3]

La información en el cerebro está codificada por patrones espaciotemporales de actividad. Estos patrones no están simplemente determinados por las propiedades biofísicas de las neuronas en sí, o incluso por las fortalezas de las conexiones entre ellas, sino que están determinadas en gran medida por la geometría del sistema que comprende las neuronas. Para comprender mejor esto, me gusta considerar la posibilidad de conducir de Los Vegas, Nevada a Los Ángeles, California, un domingo por la tarde: miles de autos ingresan a la gran autopista de las vegas y todo parece ir a la deriva hasta que ocurren dos cosas cerca. La frontera de California: el número de carriles se reduce a la mitad y la carretera sube a un paso de montaña más allá de Primm. Claramente, la geometría de la ruta (ancho y pendiente) es un predictor del tráfico tan poderoso como la cantidad de vehículos que atraviesan la ruta. Los patrones poderosos en el comportamiento neural se pueden entender por analogía similar; la sincronía se desarrolla a través de una cooperación oportuna de la actividad inhibidora de la retroalimentación y la retroalimentación. A pesar de nuestra comprensión incompleta de cómo la aparición de estos patrones permite que las redes neuronales biológicas realicen tareas cognitivas complejas, estamos razonablemente seguros de que estos elementos son críticos para construir modelos silico de sistemas neurales más poderosos.

Estrategias de aprendizaje adaptativas [4] [5]

Hoy mismo, Fritz Sommer [6], del Centro para neurociencias teóricas de Redwood, nos habló sobre cómo el aprendizaje no es tan conspicuamente consuntivo como lo hacen los algoritmos actuales de aprendizaje automático. Observe que el bebé se mueve a lo largo de su entorno, interactuando con casi todos los juguetes; mientras que el bebé ciertamente está aprendiendo sobre su entorno, la información (y el disfrute) no se maximiza al pasar la misma cantidad de tiempo con cada objeto. Además, a medida que los humanos aprenden, tomamos conciencia de las áreas de nuestro desempeño de tareas complejas en las que podríamos mejorar. Luego podemos reenfocar nuestros esfuerzos en apuntalar nuestras debilidades, dejando solo áreas reconocidas de fortaleza relativa. La mayoría de los algoritmos de aprendizaje automático están diseñados para engullir con avidez todos los datos de manera indiscriminada. El futuro de los sistemas inteligentes será necesariamente más deliberado en la implementación de recursos computacionales para maximizar la nueva información obtenida con cada nuevo aporte al modelo que se está capacitando.

Es probable que haya muchas más áreas de “Aprendizaje profundo” que puedan progresar, y estos son solo algunos ejemplos de direcciones futuras para el estudio de sistemas inteligentes.

Notas al pie

[1] Principios de neurocomputación para la ciencia y la ingeniería.

[2] La optimización de la arquitectura de la red neuronal mediante la programación genética mejora la detección y el modelado de interacciones gen-gen en estudios de humandiseas

[3] http://ieeexplore.ieee.org/abstr…

[4] [1606.03474] Sobre el control de la degeneración en ICA sobrecargada

[5] Plasticidad estructural, conectividad efectiva y memoria en Cortex

[6] Fritz Sommer – RedwoodCenter

El aprendizaje profundo no cambiará significativamente por una simple razón: si un nuevo modelo hizo un cambio sustancial y se desempeñó mucho mejor, ¡se le daría un nuevo nombre!

El descenso gradual, el mecanismo subyacente en el aprendizaje profundo y las redes neuronales en general, existirá para siempre. La pendiente gradual es una idea poderosa que es universal en su simplicidad: optimice continuamente hasta que no pueda optimizar más. Ese concepto será fundamental para todos los sistemas de aprendizaje del futuro.

Aún así, hay muchos nuevos métodos de aprendizaje aún por inventar. Cada método ataca el problema de “mejorar” de una manera diferente, basándose en los principios que lo precedieron. El aprendizaje bayesiano, el aprendizaje por refuerzo y los métodos más complejos se basan en ideas relacionadas, pero las combinan de nuevas maneras.

Los métodos de entrenamiento pueden cambiar muy bien, y de hecho, en el aprendizaje de refuerzo profundo, se ha demostrado que los algoritmos evolutivos en lugar de los gradientes ofrecen un rendimiento sorprendentemente viable a la vez que son altamente paralelizables (por OpenAI).

Dicho esto, SGD ya se ha eclipsado y casi nadie usa SGD simple sin modificaciones (es decir, el impulso de Nesterov), y de hecho ADAM y rmsprop son optimizadores populares.

El hecho de que se reemplacen o no los gradientes es mucho más complicado, y de hecho un reemplazo de los gradientes exactos (aunque hay gradientes exactos disponibles) es mucho más dudoso. ¿Por qué desperdiciaría los gradientes exactos cuando están disponibles y se conformaría con una estimación costosa? La realidad es un poco más complicada …

Como resultado, puede hacer una “falsa propagación hacia atrás” en la que los pesos en el paso al revés son aleatorios y realmente funcionará bien. (Se llama “alineación de retroalimentación”)

Tldr: Lo dudo, pero no es imposible.

SGD (o cualquier otro optimizador) nunca es el núcleo del aprendizaje profundo. Es solo un componente reemplazable que resuelve un problema matemático bien formulado. No tiene que cambiar a menudo.

El núcleo del aprendizaje profundo es cómo lanzar una estrategia adaptativa que resuelva problemas del mundo real en un problema matemático bien formulado. Esta parte siempre está cambiando.

Creo que el aprendizaje profundo seguirá avanzando y creciendo. No necesariamente cambiamos sus algoritmos (¡pero encontraremos nuevos!) Tenemos más recursos y conciencia que circundan el aprendizaje no supervisado. Estamos desarrollando más máquinas como automatizadores personales y seres sociales. Los algoritmos tradicionales de Deep Learning pueden seguir siendo los mismos, pero siempre seguiremos descubriendo más.