Я шукаю людину з досвідом впровадження (або просто високоякісним прикладом) або коду для моделей винагороди за результати та PRM, щоб допомогти покращити розділ моделі винагороди в книзі RLHF. Надішліть мені повідомлення або напишіть мені, якщо це ви або у вас є вказівник.