Mina vänner på @eternisai har precis publicerat en artikel som visar att träning av AI-modeller på de svåraste exemplen leder till 40 % bättre prestanda på resonemangsuppgifter. Detta är kontraintuitivt för människor som gillar att lära sig med de enklare sakerna.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 aug. 01:41
Vi introducerar ett bättre recept för att samla in data efter träning när du använder GRPO. Att samla in prover från experter är dyrt, annoteringsbudgetarna är begränsade. Vilka exempel är egentligen värda att betala för? Vi finner att fokus på hårda prover resulterar i en 30-40% förbättring. 1/7
311