我在尋找有經驗的人來實施(或僅僅是高品質的範例)或代碼,用於結果獎勵模型和PRM,以幫助改善RLHF書中的獎勵模型章節。 如果你是這樣的人或有相關的指引,請私訊或發郵件給我。