Sto cercando qualcuno con esperienza nell'implementazione (o solo un esempio di alta qualità) o codice per modelli di ricompensa per risultati e PRM per aiutare a migliorare il capitolo sul modello di ricompensa nel libro RLHF. Contattami in DM o via email se sei tu o se hai un riferimento.