Ik ben op zoek naar iemand met ervaring in het implementeren (of gewoon een hoogwaardig voorbeeld) of code voor uitkomstbeloningsmodellen en PRM's om het beloningsmodelhoofdstuk in het RLHF-boek te verbeteren. Stuur me een DM of e-mail als jij dat bent of als je een aanwijzing hebt.