Je cherche quelqu'un ayant de l'expérience dans la mise en œuvre (ou juste un exemple de haute qualité) ou du code pour des modèles de récompense de résultat et des PRM afin d'améliorer le chapitre sur le modèle de récompense dans le livre RLHF. Envoyez-moi un message direct ou un e-mail si c'est vous ou si vous avez une piste.