RLHFの本の報酬モデルの章を改善するために、結果報酬モデルとPRMの実装(または単なる高品質の例)またはコードの経験を持つ人を探しています。 それがあなたであるか、あなたがポインタを持っている場合は、私にDMまたはメールを送ってください。