Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Вау! DeepSeekMath-V2
Архитектура Генератор-Проверяющий снова!
... В направлении само-проверяемого математического рассуждения мы исследуем, как обучить точного и надежного проверяющего на основе LLM для доказательства теорем. Затем мы обучаем генератор доказательств, используя проверяющего в качестве модели вознаграждения, и стимулируем генератор выявлять и решать как можно больше проблем в своих собственных доказательствах перед их финализацией. Чтобы поддерживать разрыв между генерацией и проверкой по мере усиления генератора, мы предлагаем масштабировать вычисления проверки для автоматической маркировки новых труднодоказуемых доказательств, создавая обучающие данные для дальнейшего улучшения проверяющего. Наша модель, DeepSeekMath-V2, демонстрирует сильные способности в доказательстве теорем, достигая золотых баллов на IMO 2025 и CMO 2024 и почти идеальных 118/120 на Putnam 2024 с масштабированием вычислений во время тестирования. Хотя предстоит еще много работы, эти результаты предполагают, что само-проверяемое математическое рассуждение является жизнеспособным направлением исследований, которое может помочь в разработке более способных математических AI систем.

Топ
Рейтинг
Избранное

