Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wow! DeepSeekMath-V2
Arhitectură generator-verificator din nou!
... Spre un raționament matematic auto-verificabil, investigăm cum să antrenăm un verificator LLM precis și fidel pentru demonstrarea teoremelor. Apoi antrenăm un generator de demonstrații folosind verificatorul ca model de recompensă și stimulăm generatorul să identifice și să rezolve cât mai multe probleme în propriile demonstrații înainte de a le finaliza. Pentru a menține decalajul dintre generație și verificare pe măsură ce generatorul devine mai puternic, propunem scalarea calculului de verificare pentru a eticheta automat noile demonstrații greu de verificat, creând date de antrenament pentru a îmbunătăți și mai mult verificatorul. Modelul nostru rezultat, DeepSeekMath-V2, demonstrează capacități puternice de demonstrare a teoremei, obținând scoruri de nivel aur la IMO 2025 și CMO 2024 și aproape perfect 118/120 la Putnam 2024 cu calcul scalat la timpul testării. Deși mai există multe lucrări, aceste rezultate sugerează că raționamentul matematic auto-verificabil este o direcție fezabilă de cercetare care ar putea ajuta la dezvoltarea unor sisteme matematice AI mai capabile.

Limită superioară
Clasament
Favorite

