Uau! DeepSeekMath-V2 Arquitetura Gerador-Verificador novamente! ... Rumo ao raciocínio matemático auto-verificável, investigamos como treinar um verificador baseado em LLM que seja preciso e fiel para a prova de teoremas. Em seguida, treinamos um gerador de provas usando o verificador como modelo de recompensa, e incentivamos o gerador a identificar e resolver o maior número possível de problemas em suas próprias provas antes de finalizá-las. Para manter a lacuna de geração-verificação à medida que o gerador se torna mais forte, propomos escalar a computação de verificação para rotular automaticamente novas provas difíceis de verificar, criando dados de treinamento para melhorar ainda mais o verificador. Nosso modelo resultante, DeepSeekMath-V2, demonstra fortes capacidades de prova de teoremas, alcançando pontuações de nível ouro no IMO 2025 e CMO 2024 e um quase perfeito 118/120 no Putnam 2024 com computação escalada em tempo de teste. Embora muito trabalho permaneça, esses resultados sugerem que o raciocínio matemático auto-verificável é uma direção de pesquisa viável que pode ajudar a desenvolver sistemas de IA matemática mais capazes.