Estou procurando alguém com experiência na implementação (ou apenas um exemplo de alta qualidade) ou código para modelos de recompensa de resultados e PRMs para ajudar a melhorar o capítulo do modelo de recompensa no livro RLHF. DM ou e-mail me se for você ou se você tiver o ponteiro.