Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"Una delle cose molto confuse riguardo ai modelli in questo momento: come riconciliare il fatto che stanno andando così bene nelle valutazioni.
E guardi le valutazioni e dici: 'Quelle sono valutazioni piuttosto difficili.'
Ma l'impatto economico sembra essere drammaticamente indietro.
C'è [una possibile] spiegazione. Quando le persone facevano il pre-addestramento, la questione di quali dati utilizzare per l'addestramento era stata risolta, perché la risposta era tutto. Quindi non devi pensare se saranno questi dati o quelli.
Quando le persone fanno l'addestramento RL, dicono: 'Ok, vogliamo avere questo tipo di addestramento RL per questa cosa e quel tipo di addestramento RL per quest'altra cosa.'
Dici: 'Ehi, mi piacerebbe che il nostro modello funzionasse davvero bene quando lo rilasciamo. Voglio che le valutazioni sembrino fantastiche. Quale sarebbe l'addestramento RL che potrebbe aiutare in questo compito?'
Se combini questo con la generalizzazione dei modelli che in realtà è inadeguata, questo ha il potenziale di spiegare molto di ciò che stiamo vedendo, questo disallineamento tra le prestazioni nelle valutazioni e le prestazioni reali nel mondo"
Principali
Ranking
Preferiti

