Вау! DeepSeekMath-V2 Архитектура Генератор-Проверяющий снова! ... В направлении само-проверяемого математического рассуждения мы исследуем, как обучить точного и надежного проверяющего на основе LLM для доказательства теорем. Затем мы обучаем генератор доказательств, используя проверяющего в качестве модели вознаграждения, и стимулируем генератор выявлять и решать как можно больше проблем в своих собственных доказательствах перед их финализацией. Чтобы поддерживать разрыв между генерацией и проверкой по мере усиления генератора, мы предлагаем масштабировать вычисления проверки для автоматической маркировки новых труднодоказуемых доказательств, создавая обучающие данные для дальнейшего улучшения проверяющего. Наша модель, DeepSeekMath-V2, демонстрирует сильные способности в доказательстве теорем, достигая золотых баллов на IMO 2025 и CMO 2024 и почти идеальных 118/120 на Putnam 2024 с масштабированием вычислений во время тестирования. Хотя предстоит еще много работы, эти результаты предполагают, что само-проверяемое математическое рассуждение является жизнеспособным направлением исследований, которое может помочь в разработке более способных математических AI систем.