我在寻找有经验的人来实现(或仅仅是一个高质量的示例)或代码,用于结果奖励模型和PRM,以帮助改善RLHF书中的奖励模型章节。 如果你是这样的人,或者你有相关的指引,请私信我或发邮件给我。