Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
10 năm trước: kỹ sư prompt học tăng cường (RL) [1] (Sec. 5.3). Chuỗi suy nghĩ thích ứng: một mạng nơ-ron RL học cách truy vấn mạng "mô hình thế giới" của nó để lý luận trừu tượng và ra quyết định. Vượt ra ngoài mô hình thế giới nơ-ron năm 1990 [2] cho việc lập kế hoạch từng mili giây và bộ tạo mục tiêu phụ thích ứng năm 1991 [3,4] cho lập kế hoạch phân cấp.
[1] J. Schmidhuber (JS, 2015). Về việc học cách suy nghĩ: Lý thuyết thông tin thuật toán cho các tổ hợp mới của các bộ điều khiển RL và các mô hình thế giới nơ-ron hồi tiếp. ArXiv 1210.0118
[2] JS (1990). Làm cho thế giới có thể phân biệt: Về việc sử dụng các mạng nơ-ron tự giám sát hồi tiếp hoàn toàn cho học tăng cường động và lập kế hoạch trong các môi trường không ổn định. TR FKI-126-90, TUM. (Báo cáo này cũng giới thiệu sự tò mò nhân tạo và động lực nội tại thông qua các mạng đối kháng sinh tạo.)
[3] JS (1991). Học cách tạo ra các mục tiêu phụ cho các chuỗi hành động. Proc. ICANN'91, tr. 967-972.
[4] JS & R. Wahnsiedler (1992). Lập kế hoạch các quỹ đạo đơn giản bằng cách sử dụng các bộ tạo mục tiêu phụ nơ-ron. Proc. SAB'92, tr. 196-202, MIT Press.

Hàng đầu
Thứ hạng
Yêu thích

