Jag letar efter någon med erfarenhet av att implementera (eller bara ett exempel av hög kvalitet) eller kod för resultatbelöningsmodeller och PRM för att hjälpa till att förbättra kapitlet om belöningsmodeller i RLHF-boken. DM eller maila mig om det är du eller om du har pekaren.