Ik heb een vergelijkbare Generator-Verifier benadering aangenomen voor het gebruik van modellen in theoretisch fysisch onderzoek. Menselijke experts aan de voorhoede van de wetenschap kunnen Verifier-modellen verbeteren tot het punt waarop autonome werking extreem sterk is, zelfs bij echte onderzoeksproblemen (niet alleen gefingeerde wiskundewedstrijdproblemen = goed geformuleerde problemen die in een eindige tijd door mensen kunnen worden opgelost). DeepSeekMathV2 Synergie Tussen Generator en Verifier De bewijs-generator en verifier vormen een zelfverbeterende feedbacklus. Terwijl de generator steeds complexere bewijzen produceert, dagen deze de verifier uit, waardoor zwaktes blootgelegd worden die nieuwe trainingsdata worden. Aanvankelijk leidden menselijke experts de hertraining van de verifier door de gemarkeerde problemen te beoordelen — een proces dat efficiënt werd gemaakt door meerdere verificatiepogingen per bewijs te genereren. Deze “meta-verificatie” (het controleren van de bevindingen van de verifier in plaats van de bewijzen direct) bleek zowel gemakkelijker voor mensen als beter leerbaar voor LLM's. Door het aantal verifier-analyses op te schalen en te trainen op deze AI-geassisteerde annotaties, bereikte de verifier uiteindelijk een niveau van betrouwbaarheid waarbij menselijke tussenkomst niet langer nodig was in de laatste runs — het sluiten van de lus tussen geautomatiseerde bewijs generatie en verificatie.
steve hsu
steve hsu28 nov 2025
Wauw! DeepSeekMath-V2 Generator-Verifier architectuur opnieuw! ... Naar zelf-verifieerbaar wiskundig redeneren, onderzoeken we hoe we een nauwkeurige en betrouwbare LLM-gebaseerde verifier kunnen trainen voor stellingbewijzen. We trainen vervolgens een bewijs-generator met de verifier als het beloningsmodel en stimuleren de generator om zoveel mogelijk problemen in hun eigen bewijzen te identificeren en op te lossen voordat ze deze finaliseren. Om de generatie-verificatie kloof te behouden naarmate de generator sterker wordt, stellen we voor om de verificatiecomputing te schalen om automatisch nieuwe moeilijk te verifiëren bewijzen te labelen, waardoor trainingsdata wordt gecreëerd om de verifier verder te verbeteren. Ons resulterende model, DeepSeekMath-V2, toont sterke stellingbewijscapaciteiten, met gouden scores op IMO 2025 en CMO 2024 en een bijna perfecte 118/120 op Putnam 2024 met geschaalde testtijdcomputing. Hoewel er nog veel werk aan de winkel is, suggereren deze resultaten dat zelf-verifieerbaar wiskundig redeneren een haalbare onderzoeksrichting is die kan helpen bij het ontwikkelen van meer capabele wiskundige AI-systemen.
Dit beschrijft de overgang van een basis Generator-Verifier pijplijn met standaardmodellen, naar een waarbij de Verifier zelf is verbeterd door middel van door menselijke experts getrainde gegevens die zijn gebruikt in meta-verificatie.
5,55K