10 năm trước: kỹ sư prompt học tăng cường (RL) [1] (Sec. 5.3). Chuỗi suy nghĩ thích ứng: một mạng nơ-ron RL học cách truy vấn mạng "mô hình thế giới" của nó để lý luận trừu tượng và ra quyết định. Vượt ra ngoài mô hình thế giới nơ-ron năm 1990 [2] cho việc lập kế hoạch từng mili giây và bộ tạo mục tiêu phụ thích ứng năm 1991 [3,4] cho lập kế hoạch phân cấp. [1] J. Schmidhuber (JS, 2015). Về việc học cách suy nghĩ: Lý thuyết thông tin thuật toán cho các tổ hợp mới của các bộ điều khiển RL và các mô hình thế giới nơ-ron hồi tiếp. ArXiv 1210.0118 [2] JS (1990). Làm cho thế giới có thể phân biệt: Về việc sử dụng các mạng nơ-ron tự giám sát hồi tiếp hoàn toàn cho học tăng cường động và lập kế hoạch trong các môi trường không ổn định. TR FKI-126-90, TUM. (Báo cáo này cũng giới thiệu sự tò mò nhân tạo và động lực nội tại thông qua các mạng đối kháng sinh tạo.) [3] JS (1991). Học cách tạo ra các mục tiêu phụ cho các chuỗi hành động. Proc. ICANN'91, tr. 967-972. [4] JS & R. Wahnsiedler (1992). Lập kế hoạch các quỹ đạo đơn giản bằng cách sử dụng các bộ tạo mục tiêu phụ nơ-ron. Proc. SAB'92, tr. 196-202, MIT Press.