Caut pe cineva cu experiență în implementarea (sau doar un exemplu de înaltă calitate) sau cod pentru modele de recompensă de rezultate și PRM-uri pentru a ajuta la îmbunătățirea capitolului model de recompensă din cartea RLHF. DM sau trimite-mi un e-mail dacă ești tu sau ai indicatorul.