Vennene mine i @eternisai publiserte nettopp en artikkel som viser at trening av AI-modeller på de vanskeligste eksemplene fører til 40 % bedre ytelse på resonneringsoppgaver. Dette er kontraintuitivt for mennesker som liker å lære med de enklere tingene.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23. aug., 01:41
Vi introduserer en bedre oppskrift for innsamling av data etter trening ved bruk av GRPO. Å samle inn prøver fra eksperter er dyrt, merknadsbudsjettene er begrenset. Hvilke eksempler er egentlig verdt å betale for? Vi finner at fokus på harde prøver resulterer i en forbedring på 30-40 %. 1/7
278