DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

"Una delle cose molto confuse riguardo ai modelli in questo momento: come riconciliare il fatto che stanno andando così bene nelle valutazioni. E guardi le valutazioni e dici: 'Quelle sono valutazioni piuttosto difficili.' Ma l'impatto economico sembra essere drammaticamente indietro. C'è [una possibile] spiegazione. Quando le persone facevano il pre-addestramento, la questione di quali dati utilizzare per l'addestramento era stata risolta, perché la risposta era tutto. Quindi non devi pensare se saranno questi dati o quelli. Quando le persone fanno l'addestramento RL, dicono: 'Ok, vogliamo avere questo tipo di addestramento RL per questa cosa e quel tipo di addestramento RL per quest'altra cosa.' Dici: 'Ehi, mi piacerebbe che il nostro modello funzionasse davvero bene quando lo rilasciamo. Voglio che le valutazioni sembrino fantastiche. Quale sarebbe l'addestramento RL che potrebbe aiutare in questo compito?' Se combini questo con la generalizzazione dei modelli che in realtà è inadeguata, questo ha il potenziale di spiegare molto di ciò che stiamo vedendo, questo disallineamento tra le prestazioni nelle valutazioni e le prestazioni reali nel mondo"

Principali

Ranking

Preferiti