Szukam kogoś z doświadczeniem w implementacji (lub po prostu wysokiej jakości przykładu) lub kodu dla modeli nagród wyników i PRM, aby pomóc poprawić rozdział o modelu nagród w książce RLHF. Napisz do mnie na DM lub e-mail, jeśli to ty lub masz jakieś wskazówki.