Moji přátelé z @eternisai právě publikovali článek, který ukazuje, že trénování modelů umělé inteligence na nejtěžších příkladech vede k o 40 % lepšímu výkonu v úlohách uvažování. To je v rozporu s lidmi, kteří se rádi učí s jednoduššími věcmi.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23. 8. 01:41
Představujeme lepší recept na sběr post-tréninkových dat při použití GRPO. Sběr vzorků od odborníků je drahý, rozpočty na anotace jsou omezené. Za které příklady se vlastně vyplatí zaplatit? Zjistili jsme, že zaměření na tvrdé vzorky vede ke zlepšení o 30-40 %. 1/7
280