Estoy buscando a alguien con experiencia en la implementación (o simplemente un ejemplo de alta calidad) o código para modelos de recompensa de resultados y PRM para ayudar a mejorar el capítulo del modelo de recompensa en el libro RLHF. Envíame un mensaje directo o envíame un correo electrónico si eres tú o tienes el puntero.