Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Я принял аналогичный подход Генератора-Верфикатора для использования моделей в теоретических исследованиях физики.
Человеческие эксперты на переднем крае науки могут улучшить модели Верфикатора до такой степени, что автономная работа становится чрезвычайно эффективной даже при решении реальных исследовательских задач (а не только вымышленных задач математических конкурсов = хорошо поставленных задач, которые могут быть решены людьми за конечное время).
DeepSeekMathV2
Синергия между Генератором и Верфикатором
Генератор доказательств и верфикатор образуют самосовершенствующийся обратный цикл. Поскольку генератор производит все более сложные доказательства, они ставят перед верфикатором новые задачи, выявляя слабые места, которые становятся новыми данными для обучения. Изначально человеческие эксперты направляли переобучение верфикатора, просматривая его отмеченные проблемы — процесс, который стал более эффективным благодаря генерации нескольких попыток верификации для каждого доказательства. Эта "мета-верификация" (проверка выводов верфикатора, а не самих доказательств) оказалась как более простой для людей, так и более обучаемой для LLM.
Увеличив количество анализов верфикатора и обучаясь на этих аннотациях с помощью ИИ, верфикатор в конечном итоге достиг уровня надежности, при котором вмешательство человека больше не требовалось в финальных запусках — замыкая цикл между автоматизированной генерацией доказательств и верификацией.

28 нояб. 2025 г.
Вау! DeepSeekMath-V2
Архитектура Генератор-Проверяющий снова!
... В направлении само-проверяемого математического рассуждения мы исследуем, как обучить точного и надежного проверяющего на основе LLM для доказательства теорем. Затем мы обучаем генератор доказательств, используя проверяющего в качестве модели вознаграждения, и стимулируем генератор выявлять и решать как можно больше проблем в своих собственных доказательствах перед их финализацией. Чтобы поддерживать разрыв между генерацией и проверкой по мере усиления генератора, мы предлагаем масштабировать вычисления проверки для автоматической маркировки новых труднодоказуемых доказательств, создавая обучающие данные для дальнейшего улучшения проверяющего. Наша модель, DeepSeekMath-V2, демонстрирует сильные способности в доказательстве теорем, достигая золотых баллов на IMO 2025 и CMO 2024 и почти идеальных 118/120 на Putnam 2024 с масштабированием вычислений во время тестирования. Хотя предстоит еще много работы, эти результаты предполагают, что само-проверяемое математическое рассуждение является жизнеспособным направлением исследований, которое может помочь в разработке более способных математических AI систем.

Это описывает переход от базового конвейера Генератор-Проверяющий с использованием стандартных моделей к такому, в котором сам Проверяющий был улучшен с помощью данных обучения от человеческих экспертов, использованных в мета-проверке.

5,53K
Топ
Рейтинг
Избранное
