Adopté un enfoque similar de Generador-Verificador para el uso de modelos en la investigación de física teórica. Los expertos humanos en la frontera de la ciencia pueden mejorar los modelos Verificadores hasta el punto en que la operación autónoma es extremadamente sólida incluso en problemas de investigación del mundo real (no solo en problemas de concursos matemáticos artificiales = problemas bien planteados que pueden ser resueltos en un tiempo finito por humanos). DeepSeekMathV2 Sinergia entre Generador y Verificador El generador de pruebas y el verificador forman un bucle de retroalimentación auto-mejorante. A medida que el generador produce pruebas cada vez más complejas, estas desafían al verificador, exponiendo debilidades que se convierten en nuevos datos de entrenamiento. Inicialmente, expertos humanos guiaron el reentrenamiento del verificador revisando los problemas señalados — un proceso que se hizo eficiente al generar múltiples intentos de verificación por cada prueba. Esta “meta-verificación” (comprobar los hallazgos del verificador en lugar de las pruebas directamente) resultó ser más fácil para los humanos y más aprendible para los LLMs. Al escalar el número de análisis del verificador y entrenar con estas anotaciones asistidas por IA, el verificador eventualmente alcanzó un nivel de fiabilidad donde la intervención humana ya no era necesaria en las ejecuciones finales — cerrando el bucle entre la generación automatizada de pruebas y la verificación.
steve hsu
steve hsu28 nov 2025
¡Guau! DeepSeekMath-V2 ¡Arquitectura Generador-Verificador de nuevo! ... Hacia un razonamiento matemático auto-verificable, investigamos cómo entrenar un verificador basado en LLM que sea preciso y fiel para la demostración de teoremas. Luego entrenamos un generador de pruebas utilizando el verificador como modelo de recompensa, e incentivamos al generador a identificar y resolver tantos problemas como sea posible en sus propias pruebas antes de finalizarlas. Para mantener la brecha de generación-verificación a medida que el generador se vuelve más fuerte, proponemos escalar la computación de verificación para etiquetar automáticamente nuevas pruebas difíciles de verificar, creando datos de entrenamiento para mejorar aún más el verificador. Nuestro modelo resultante, DeepSeekMath-V2, demuestra fuertes capacidades de demostración de teoremas, logrando puntuaciones de nivel oro en IMO 2025 y CMO 2024 y un casi perfecto 118/120 en Putnam 2024 con computación escalada en el tiempo de prueba. Si bien queda mucho trabajo por hacer, estos resultados sugieren que el razonamiento matemático auto-verificable es una dirección de investigación factible que puede ayudar a desarrollar sistemas de IA matemática más capaces.
Esto describe la transición de un pipeline básico de Generador-Verificador utilizando modelos estándar, a uno en el que el Verificador en sí ha sido mejorado a través de datos de entrenamiento de expertos humanos utilizados en la meta-verificación.
5,55K