Acum 10 ani: inginerul prompturilor de învățare prin întărire (RL) [1] (Sec. 5.3). Lanț adaptiv de gândire: o rețea neuronală RL învață să interogheze rețeaua sa "model mondial" pentru raționament abstract și luarea deciziilor. Dincolo de modelul neural world din 1990 [2] pentru planificarea milisecundă cu milisecundă și generatorul adaptiv de subobiective neuronale din 1991 [3,4] pentru planificarea ierarhică. [1] J. Schmidhuber (JS, 2015). Despre învățarea gândirii: Teoria algoritmică a informației pentru combinații noi de controloare RL și modele neuronale recurente. ArXiv 1210.0118 [2] JS (1990). Făcând lumea diferențiabilă: Despre utilizarea rețelelor neuronale auto-supravegheate complet recurente pentru învățare prin întărire dinamică și planificare în medii non-staționare. TR FKI-126-90, TUM. (Acest raport a introdus, de asemenea, curiozitatea artificială și motivația intrinsecă prin rețele generative adversariale.) [3] JS (1991). Învățarea generării de sub-obiective pentru secvențele de acțiune. Proc. ICANN'91, p. 967-972. [4] JS & R. Wahnsiedler (1992). Planificarea unor traiectorii simple folosind generatoare neuronale de subobiective. Proc. SAB'92, p. 196-202, MIT Press.