Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hace 10 años: el ingeniero de prompts de aprendizaje por refuerzo (RL) [1] (Sec. 5.3). Cadena de pensamiento adaptativa: una red neuronal RL aprende a consultar su red de "modelo mundial" para razonamiento abstracto y toma de decisiones. Yendo más allá del modelo de mundo neuronal de 1990 [2] para la planificación milisegundo a milisegundo y el generador adaptativo de subobjetivos neuronales de 1991 [3,4] para la planificación jerárquica.
[1] J. Schmidhuber (JS, 2015). Sobre aprender a pensar: Teoría algorítmica de la información para combinaciones novedosas de controladores RL y modelos recurrentes de mundos neuronales. ArXiv 1210.0118
[2] JS (1990). Haciendo el mundo diferenciable: Sobre el uso de redes neuronales autosupervisadas totalmente recurrentes para el aprendizaje por refuerzo dinámico y la planificación en entornos no estacionarios. TR FKI-126-90, TUM. (Este informe también introdujo la curiosidad artificial y la motivación intrínseca a través de redes generativas adversariales.)
[3] JS (1991). Aprender a generar subobjetivos para secuencias de acción. Proc. ICANN'91, p. 967-972.
[4] JS & R. Wahnsiedler (1992). Planificar trayectorias simples usando generadores neuronales de subobjetivos. Proc. SAB'92, p. 196-202, MIT Press.

Populares
Ranking
Favoritas

