Hace 10 años: el ingeniero de prompts de aprendizaje por refuerzo (RL) [1] (Sec. 5.3). Cadena de pensamiento adaptativa: una red neuronal RL aprende a consultar su red de "modelo mundial" para razonamiento abstracto y toma de decisiones. Yendo más allá del modelo de mundo neuronal de 1990 [2] para la planificación milisegundo a milisegundo y el generador adaptativo de subobjetivos neuronales de 1991 [3,4] para la planificación jerárquica. [1] J. Schmidhuber (JS, 2015). Sobre aprender a pensar: Teoría algorítmica de la información para combinaciones novedosas de controladores RL y modelos recurrentes de mundos neuronales. ArXiv 1210.0118 [2] JS (1990). Haciendo el mundo diferenciable: Sobre el uso de redes neuronales autosupervisadas totalmente recurrentes para el aprendizaje por refuerzo dinámico y la planificación en entornos no estacionarios. TR FKI-126-90, TUM. (Este informe también introdujo la curiosidad artificial y la motivación intrínseca a través de redes generativas adversariales.) [3] JS (1991). Aprender a generar subobjetivos para secuencias de acción. Proc. ICANN'91, p. 967-972. [4] JS & R. Wahnsiedler (1992). Planificar trayectorias simples usando generadores neuronales de subobjetivos. Proc. SAB'92, p. 196-202, MIT Press.