Adotei uma abordagem semelhante de Gerador-Verificador para o uso de modelos em pesquisas teóricas de física. Especialistas humanos na vanguarda da ciência podem melhorar os modelos de Verificadores a ponto de a operação autônoma ser extremamente forte mesmo em problemas de pesquisa do mundo real (não apenas problemas de concursos matemáticos fabricados = problemas bem colocados que podem ser resolvidos em tempo finito por humanos). DeepSeekMathV2 Sinergia entre gerador e verificador O gerador de provas e o verificador formam um ciclo de retroalimentação auto-aprimorador. À medida que o gerador produz provas cada vez mais complexas, elas desafiam o verificador, expondo fraquezas que se tornam novos dados de treinamento. Inicialmente, especialistas humanos guiavam o retreinamento do verificador revisando suas questões sinalizadas — um processo tornado eficiente ao gerar múltiplas tentativas de verificação por prova. Essa "meta-verificação" (verificação dos achados do verificador em vez das provas diretamente) mostrou-se mais fácil para humanos e mais aprendível para LLMs. Ao escalar o número de análises e treinamentos de verificadores nessas anotações assistidas por IA, o verificador eventualmente atingiu um nível de confiabilidade em que a intervenção humana não foi mais necessária nas execuções finais — fechando o ciclo entre geração automatizada de provas e verificação.
steve hsu
steve hsu28 de nov. de 2025
Uau! DeepSeekMath-V2 Arquitetura Gerador-Verificador novamente! ... Em busca de um raciocínio matemático auto-verificável, investigamos como treinar um verificador baseado em LLM preciso e fiel para a demonstração de teoremas. Em seguida, treinamos um gerador de provas usando o verificador como modelo de recompensa, e incentivamos o gerador a identificar e resolver o máximo possível de questões em suas próprias provas antes de finalizá-las. Para manter a lacuna entre geração e verificação à medida que o gerador se fortalece, propomos escalar o cálculo de verificação para rotular automaticamente novas provas difíceis de verificar, criando dados de treinamento para aprimorar ainda mais o verificador. Nosso modelo resultante, DeepSeekMath-V2, demonstra fortes capacidades de demonstração de teoremas, alcançando pontuações ouro no IMO 2025 e CMO 2024 e quase perfeitas 118/120 no Putnam 2024 com computação escalonada no tempo de teste. Embora ainda haja muito trabalho, esses resultados sugerem que o raciocínio matemático auto-verificável é uma direção viável de pesquisa que pode ajudar a desenvolver sistemas de IA matemática mais capazes.
Isso descreve a transição de um pipeline básico Gerador-Verificador usando modelos prontos para o mercado para um em que o próprio Verificador foi aprimorado por meio de dados de treinamento de especialistas humanos usados em meta-verificação.
5,54K