Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
För 10 år sedan: förstärkningsinlärningspromptingenjören [1] (avsnitt 5.3). Adaptiv tankekedja: ett RL-neuralt nätverk lär sig att fråga sitt "världsmodell"-nät för abstrakt resonemang och beslutsfattande. Att gå bortom 1990 års neurala världsmodell [2] för millisekund-för-millisekund-planering och 1991 års adaptiva neurala delmålsgenerator [3,4] för hierarkisk planering.
[1] J. Schmidhuber (JS, 2015). Om att lära sig tänka: Algoritmisk informationsteori för nya kombinationer av RL-kontroller och recurrenta neurala världsmodeller. ArXiv 1210.0118
[2] JS (1990). Att göra världen differentierbar: Om att använda fullt recurrenta självövervakade neurala nätverk för dynamisk förstärkningsinlärning och planering i icke-stationära miljöer. TR FKI-126-90, TUM. (Denna rapport introducerade också artificiell nyfikenhet och inre motivation genom generativa adversariella nätverk.)
[3] JS (1991). Att lära sig att generera delmål för actionsekvenser. Proc. ICANN'91, s. 967-972.
[4] JS & R. Wahnsiedler (1992). Planering av enkla banor med hjälp av neurala delmålsgeneratorer. Proc. SAB'92, s. 196-202, MIT Press.

Topp
Rankning
Favoriter

