Saya mencari seseorang yang memiliki pengalaman menerapkan (atau hanya contoh berkualitas tinggi) atau kode untuk model hadiah hasil dan PRM untuk membantu meningkatkan bab model hadiah dalam buku RLHF. DM atau email saya jika itu Anda atau Anda memiliki penunjuk.