¿Cuáles son las fronteras de las teorías del aprendizaje por refuerzo?

Yo diría que los retos más importantes son:

Aprendizaje de transferencia: una vez que un agente aprende la política para un problema, ¿cómo puede extenderse a otro problema relacionado (en el mismo dominio o en otro diferente)?
Aprendizaje multiagente distribuido: ¿cómo pueden aprender juntos varios agentes (colaborando para optimizar un bienestar social o compitiendo para encontrar un equilibrio) con información parcial (imperfecta) de lo que otros agentes están haciendo y observando y con conocimiento parcial del estado del medio ambiente?
Aprendizaje de características: ¿cómo aprender características que sean lo suficientemente representativas para que funcione el algoritmo de aprendizaje de políticas?
¿Cómo aprender de manera eficiente en un entorno no markoviano? Hay mucho esfuerzo en construir algoritmos que no supongan ninguna transición de estado de Markov, por ejemplo, el enfoque de aprendizaje optimista / bandido.
¿Cómo escalar todos estos problemas a problemas reales? Hoy podemos aprender políticas óptimas en dominios complejos a partir de datos sin procesar (como aprender juegos de arcade Atari2600 a partir de píxeles de la pantalla). Pero tenemos que desarrollar arquitecturas novedosas, por ejemplo, jerárquicas, para escalar a dominios más complejos.
Y, por último, pero no menos importante, debemos encontrar nuevas aplicaciones para los algoritmos de RL (en mercadeo de negocios, interacción con computadoras humanas, etc.).