Am adoptat o abordare similară de tip Generator-Verificator pentru utilizarea modelelor în cercetarea fizicii teoretice. Experții umani de frontieră a științei pot îmbunătăți modelele de verificatori până la punctul în care funcționarea autonomă este extrem de puternică chiar și pe probleme de cercetare din lumea reală (nu doar probleme de competiție matematică fabricate = probleme bine puse care pot fi rezolvate într-un timp finit de oameni). DeepSeekMathV2 Sinergia dintre generator și verificator Generatorul de demonstrații și verificatorul formează o buclă de feedback auto-îmbunătățire. Pe măsură ce generatorul produce demonstrații din ce în ce mai complexe, acestea provoacă verificatorul, expunând slăbiciuni care devin noi date de antrenament. Inițial, experții umani au ghidat reinstruirea verificatorului prin revizuirea problemelor marcate — un proces devenit eficient prin generarea mai multor încercări de verificare pentru fiecare dovadă. Această "meta-verificare" (verificarea constatărilor verificatorului, nu demonstrațiile directe) s-a dovedit atât mai ușoară pentru oameni, cât și mai ușor de învățat pentru LLM-uri. Prin scalarea numărului de analize și antrenamente ale verificatorilor pe aceste adnotări asistate de AI, verificatorul a ajuns în cele din urmă la un nivel de fiabilitate în care intervenția umană nu a mai fost necesară în ultimele execuții — închizând astfel cercul dintre generarea automată a probelor și verificare.
steve hsu
steve hsu28 nov. 2025
Wow! DeepSeekMath-V2 Arhitectură generator-verificator din nou! ... Spre un raționament matematic auto-verificabil, investigăm cum să antrenăm un verificator LLM precis și fidel pentru demonstrarea teoremelor. Apoi antrenăm un generator de demonstrații folosind verificatorul ca model de recompensă și stimulăm generatorul să identifice și să rezolve cât mai multe probleme în propriile demonstrații înainte de a le finaliza. Pentru a menține decalajul dintre generație și verificare pe măsură ce generatorul devine mai puternic, propunem scalarea calculului de verificare pentru a eticheta automat noile demonstrații greu de verificat, creând date de antrenament pentru a îmbunătăți și mai mult verificatorul. Modelul nostru rezultat, DeepSeekMath-V2, demonstrează capacități puternice de demonstrare a teoremei, obținând scoruri de nivel aur la IMO 2025 și CMO 2024 și aproape perfect 118/120 la Putnam 2024 cu calcul scalat la timpul testării. Deși mai există multe lucrări, aceste rezultate sugerează că raționamentul matematic auto-verificabil este o direcție fezabilă de cercetare care ar putea ajuta la dezvoltarea unor sisteme matematice AI mai capabile.
Aceasta descrie tranziția de la un pipeline de bază Generator-Verificator folosind modele gata de utilizare, la unul în care Verificatorul însuși a fost îmbunătățit prin datele de antrenament ale experților umani folosite în meta-verificare.
5,57K