Estou à procura de alguém com experiência na implementação (ou apenas um exemplo de alta qualidade) ou código para modelos de recompensa de resultado e PRMs para ajudar a melhorar o capítulo do modelo de recompensa no livro RLHF. Mande-me uma mensagem direta ou envie-me um e-mail se você for essa pessoa ou se tiver alguma indicação.