Omaksuin samankaltaisen generaattori-varmennusmenetelmän mallien käyttöön teoreettisessa fysiikan tutkimuksessa. Tieteen eturintamassa olevat ihmisasiantuntijat voivat parantaa Verifier-malleja niin, että autonominen toiminta on erittäin vahvaa jopa todellisissa tutkimusongelmissa (ei pelkästään keinotekoisissa matemaattisissa kilpailuissa = hyvin asetetut ongelmat, jotka ihmiset voivat ratkaista rajallisessa ajassa). DeepSeekMathV2 Synergia generaattorin ja verifierin välillä Todistusgeneraattori ja varmentaja muodostavat itseparantuvan palautesilmukan. Kun generaattori tuottaa yhä monimutkaisempia todistuksia, ne haastavat varmennustekijän, paljastaen heikkouksia, joista tulee uutta koulutusdataa. Aluksi ihmisasiantuntijat ohjasivat varmistajan uudelleenkoulutusta tarkastelemalla sen merkityt ongelmat — prosessi, joka tehtiin tehokkaaksi tuottamalla useita varmennusyrityksiä per todistus. Tämä "meta-varmennus" (varmennuslaitteen havaintojen tarkistaminen suoran todistusten sijaan) osoittautui sekä helpommaksi ihmisille että helpommaksi LLM:ille. Laajentamalla varmennusanalyysien määrää ja koulutuksen avulla näitä tekoälyavusteisia annotaatioita varmistaja saavutti lopulta luotettavuuden tason, jossa ihmisen puuttumista ei enää tarvittu lopullisissa suorituksissa — sulkien kierre automaattisen todistusaineiston ja verifioinnin välillä.
steve hsu
steve hsu28.11.2025
Vau! DeepSeekMath-V2 Generaattori-Verifier-arkkitehtuuri taas! ... Kohti itsevarmennettavaa matemaattista päättelyä tutkimme, miten kouluttaa tarkka ja uskollinen LLM-pohjainen varmennustekijä teoreemien todistamiseen. Koulutamme sitten todistusgeneraattorin käyttäen varmentajaa palkitsemismallina ja kannustamme generaattoria tunnistamaan ja ratkaisemaan mahdollisimman monta ongelmaa omissa todistuksissaan ennen niiden viimeistelyä. Jotta generaattorin vahvistuskuilu säilyisi, ehdotamme verifiointilaskennan skaalautumista siten, että uudet vaikeasti tarkistettavat todistukset voidaan automaattisesti merkitä ja luoda koulutusdataa varmistajan parantamiseksi. Tuloksena oleva mallimme, DeepSeekMath-V2, osoittaa vahvoja teoreemoja todistavia kykyjä, saavuttaen kultatason pisteet IMO 2025:ssä ja CMO 2024:ssa sekä lähes täydelliset 118/120 Putnam 2024:ssä skaalatulla testiaikalaskennalla. Vaikka työtä on vielä paljon, nämä tulokset viittaavat siihen, että itse todennettavissa oleva matemaattinen päättely on toteuttamiskelpoinen tutkimussuunta, joka voi auttaa kehittämään kykenevämpiä matemaattisia tekoälyjärjestelmiä.
Tämä kuvaa siirtymää perusgeneraattori-varmennusputkesta, jossa käytetään valmiita malleja, sellaiseen, jossa varmennusohjelmaa on parannettu ihmisen asiantuntijakoulutusdatalla, jota käytetään meta-varmennuksessa.
5,55K