För 10 år sedan: förstärkningsinlärningspromptingenjören [1] (avsnitt 5.3). Adaptiv tankekedja: ett RL-neuralt nätverk lär sig att fråga sitt "världsmodell"-nät för abstrakt resonemang och beslutsfattande. Att gå bortom 1990 års neurala världsmodell [2] för millisekund-för-millisekund-planering och 1991 års adaptiva neurala delmålsgenerator [3,4] för hierarkisk planering. [1] J. Schmidhuber (JS, 2015). Om att lära sig tänka: Algoritmisk informationsteori för nya kombinationer av RL-kontroller och recurrenta neurala världsmodeller. ArXiv 1210.0118 [2] JS (1990). Att göra världen differentierbar: Om att använda fullt recurrenta självövervakade neurala nätverk för dynamisk förstärkningsinlärning och planering i icke-stationära miljöer. TR FKI-126-90, TUM. (Denna rapport introducerade också artificiell nyfikenhet och inre motivation genom generativa adversariella nätverk.) [3] JS (1991). Att lära sig att generera delmål för actionsekvenser. Proc. ICANN'91, s. 967-972. [4] JS & R. Wahnsiedler (1992). Planering av enkla banor med hjälp av neurala delmålsgeneratorer. Proc. SAB'92, s. 196-202, MIT Press.