اعتمدت نهج مشابه للمولد-المتحقق لاستخدام النماذج في أبحاث الفيزياء النظرية. يمكن للخبراء البشريين في حدود العلم تحسين نماذج التحقق إلى درجة أن التشغيل الذاتي قوي جدا حتى في مسائل البحث الواقعية (وليس فقط مسائل رياضية مصطنعة = مسائل موضوعة بشكل جيد يمكن للبشر حلها في زمن محدود). ديب سيك ماث V2 التآزر بين المولد والمتحقق مولد الإثبات وأداة التحقق يشكلان حلقة تغذية راجعة ذاتية التحسين. مع إنتاج المولد لبراهين أكثر تعقيدا، تتحدى هذه البراهين المتحقق من المحقق، كاشفة عن نقاط ضعف تتحول إلى بيانات تدريب جديدة. في البداية، كان الخبراء البشريون يوجهون إعادة تدريب المتحقق من خلال مراجعة المشكلات التي تم الإبلاغ عنها — وهي عملية أصبحت فعالة من خلال توليد عدة محاولات تحقق لكل إثبات. ثبت أن هذا "التحقق الفوقي" (التحقق من نتائج المتحقق بدلا من البراهين مباشرة) أسهل للبشر وأكثر قابلية للتعلم لنماذج اللغة الكبيرة. من خلال توسيع عدد تحليلات المؤكدين والتدريب على هذه التعليقات المدعومة بالذكاء الذكاء الاصطناعي، وصل المتحقق في النهاية إلى مستوى من الموثوقية حيث لم يعد التدخل البشري مطلوبا في التجارب النهائية — مما أغلق الحلقة بين توليد الأدلة الآلية والتحقق.
steve hsu
steve hsu‏28 نوفمبر 2025
ياه! ديب سيك ماث-V2 بنية المولد-المتحقق مرة أخرى! ... نحو التفكير الرياضي القابل للتحقق ذاتيا، نبحث في كيفية تدريب محقق دقيق ومخلص قائم على نماذج اللغة الكبيرة لإثبات النظريات. ثم نقوم بتدريب مولد إثبات باستخدام المتحقق كنموذج مكافأة، ونحفز المولد على تحديد وحل أكبر عدد ممكن من القضايا في براهاته الخاصة قبل إنهائها. للحفاظ على فجوة التحقق من الجيل مع تقوية المولد، نقترح توسيع حساب التحقق لوضع علامات جديدة يصعب التحقق منها تلقائيا، مما ينشئ بيانات تدريب لتحسين المتحقق بشكل أكبر. يظهر نموذجنا الناتج، DeepSeekMath-V2، قدرات قوية في إثبات النظريات، حيث يحقق درجات على المستوى الذهبي في IMO 2025 وCMO 2024، ودرجة شبه مثالية 118/120 في بوتنام 2024 مع حساب وقت اختبار موسع. بينما لا يزال هناك الكثير من العمل، تشير هذه النتائج إلى أن التفكير الرياضي القابل للتحقق ذاتيا هو اتجاه بحثي عملي قد يساعد في تطوير أنظمة الذكاء الاصطناعي الرياضية الأكثر قدرة.
يصف هذا الانتقال من خط أنابيب أساسي بين مولد-محقق باستخدام نماذج جاهزة، إلى مسار تم فيه تحسين المتحقق نفسه من خلال بيانات تدريب خبراء بشرية تستخدم في التحقق الفوقي.
‏‎5.53‏K