Hledám někoho, kdo má zkušenosti s implementací (nebo jen vysoce kvalitním příkladem) nebo kódem pro modely odměňování a PRM, aby pomohl vylepšit kapitolu o modelu odměňování v knize RLHF. DM nebo mi napište, pokud jste to vy nebo máte ukazatel.