Я ищу кого-то с опытом реализации (или просто качественный пример) или кода для моделей вознаграждения по результатам и PRM, чтобы помочь улучшить главу о модели вознаграждения в книге RLHF. Напишите мне в личные сообщения или на электронную почту, если это вы или у вас есть подсказка.