Teorik fizik araştırmalarında modellerin kullanımı için benzer bir Jeneratör-Doğrulayıcı yaklaşımını benimsedim. Bilimin öncüsündeki insan uzmanları, Doğrulayıcı modelleri öyle geliştirebilir ki, otonom çalışma gerçek dünya araştırma problemlerinde bile son derece güçlü hale gelir (sadece yapay matematik yarışması problemleri = insanların sınırlı sürede çözülebilen iyi yerleştirilmiş problemler değil). DeepSeekMathV2 Jeneratör ve Doğrulayıcı Arasındaki Sinerji Kanıt üreteci ve doğrulayıcı, kendini geliştiren bir geri besleme döngüsü oluşturur. Üretici giderek daha karmaşık kanıtlar ürettikçe, bunlar doğrulayıcıyı zorlayarak yeni eğitim verilerine dönüşen zayıflıkları ortaya çıkarır. Başlangıçta, insan uzmanları, doğrulayıcının yeniden eğitimini işaretlenen sorunları gözden geçirerek yönlendirdi — bu süreç, her kanıt için birden fazla doğrulama girişimi oluşturarak verimli hale getirildi. Bu "meta-doğrulama" (doğrulayıcının bulgularını doğrudan kontrol etmek yerine doğrulama) hem insanlar için daha kolay hem de LLM'ler için daha öğrenilebilir oldu. Bu yapay zeka destekli notasyonlarda doğrulayıcı analizlerinin ve eğitimlerinin sayısını ölçeklendirerek, doğrulayıcı sonunda son çalışmalarda insan müdahalesine gerek kalmadığı bir güvenilirlik seviyesine ulaştı — böylece otomatik kanıt üretimi ile doğrulama arasındaki döngü kapandı.
steve hsu
steve hsu28 Kas 2025
Vay! DeepSeekMath-V2 Yine Jeneratör-Doğrulayıcı mimarisi! ... Kendi kendini doğrulanabilir matematiksel akıl yürütmeye doğru, doğru ve sadık bir LLM tabanlı doğrulayıcıyı teorem ispatı için nasıl eğitileceğini araştırıyoruz. Daha sonra doğrulayıcıyı ödül modeli olarak kullanarak bir ispat üretecini eğitiyoruz ve üreticiyi, kendi kanıtlarında mümkün olduğunca çok sorunu tespit edip çözmeye teşvik ediyoruz, sonra bunları kesinleştiriyoruz. Jeneratör güçlendikçe üretim-doğrulama boşluğunu korumak için, doğrulama hesaplamasını yeni, doğrulaması zor kanıtları otomatik olarak etiketleyecek şekilde ölçeklendirmeyi öneriyoruz ve doğrulamayı daha da geliştirmek için eğitim verisi oluşturuyoruz. Ortaya çıkan modelimiz DeepSeekMath-V2, güçlü teorem kanıtlama yetenekleri gösteriyor; IMO 2025 ve CMO 2024'te altın seviye puanlar ve ölçekli test zamanı hesaplamasıyla Putnam 2024'te neredeyse kusursuz 118/120 puan elde ediyor. Daha çok çalışma olsa da, bu sonuçlar kendini doğrulanabilir matematiksel akıl yürütmenin daha yetenekli matematiksel yapay zeka sistemlerinin geliştirilmesine yardımcı olabilecek uygulanabilir bir araştırma yönü olduğunu gösteriyor.
Bu, hazır modeller kullanılarak temel bir Jeneratör-Doğrulayıcı boru hattından, meta-doğrulamada kullanılan insan uzman eğitim verileriyle geliştirilen bir Doğrulama boru hattına geçişi tanımlar.
5,52K