Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
10 lat temu: inżynier promptów uczenia przez wzmocnienie (RL) [1] (Sek. 5.3). Adaptacyjny łańcuch myślenia: sieć neuronowa RL uczy się zapytywać swoją sieć "modelu świata" o abstrakcyjne rozumowanie i podejmowanie decyzji. Wykraczając poza model świata neuronowego z 1990 roku [2] do planowania na poziomie milisekund oraz adaptacyjny generator podcelów neuronowych z 1991 roku [3,4] do planowania hierarchicznego.
[1] J. Schmidhuber (JS, 2015). O uczeniu się myśleć: Algorytmiczna teoria informacji dla nowych kombinacji kontrolerów RL i rekurencyjnych neuronowych modeli świata. ArXiv 1210.0118
[2] JS (1990). Uczynienie świata różniczkowalnym: O wykorzystaniu w pełni rekurencyjnych, samonadzorowanych sieci neuronowych do dynamicznego uczenia przez wzmocnienie i planowania w niestacjonarnych środowiskach. TR FKI-126-90, TUM. (Ten raport wprowadził również sztuczną ciekawość i wewnętrzną motywację poprzez generatywne sieci przeciwstawne.)
[3] JS (1991). Uczenie się generowania podcelów dla sekwencji działań. Proc. ICANN'91, s. 967-972.
[4] JS i R. Wahnsiedler (1992). Planowanie prostych trajektorii z wykorzystaniem neuronowych generatorów podcelów. Proc. SAB'92, s. 196-202, MIT Press.

Najlepsze
Ranking
Ulubione

