Tôi đã áp dụng một phương pháp tương tự Generator-Verifier cho việc sử dụng các mô hình trong nghiên cứu vật lý lý thuyết. Các chuyên gia con người ở ranh giới của khoa học có thể cải thiện các mô hình Verifier đến mức mà hoạt động tự động trở nên cực kỳ mạnh mẽ ngay cả trên các vấn đề nghiên cứu thực tế (không chỉ là các vấn đề toán học giả định = các vấn đề được định hình tốt có thể được giải quyết trong một khoảng thời gian hữu hạn bởi con người). DeepSeekMathV2 Sự hợp tác giữa Generator và Verifier Bộ sinh chứng và bộ xác minh tạo thành một vòng lặp phản hồi tự cải thiện. Khi bộ sinh tạo ra các chứng minh ngày càng phức tạp, chúng thách thức bộ xác minh, phơi bày những điểm yếu trở thành dữ liệu huấn luyện mới. Ban đầu, các chuyên gia con người đã hướng dẫn việc tái huấn luyện của bộ xác minh bằng cách xem xét các vấn đề mà nó đã đánh dấu — một quy trình được thực hiện hiệu quả bằng cách tạo ra nhiều nỗ lực xác minh cho mỗi chứng minh. Việc "meta-xác minh" (kiểm tra các phát hiện của bộ xác minh thay vì các chứng minh trực tiếp) đã chứng minh là dễ dàng hơn cho con người và dễ học hơn cho các LLM. Bằng cách mở rộng số lượng phân tích của bộ xác minh và huấn luyện trên các chú thích hỗ trợ AI này, bộ xác minh cuối cùng đã đạt được mức độ tin cậy mà sự can thiệp của con người không còn cần thiết trong các lần chạy cuối cùng — khép kín vòng lặp giữa việc tạo chứng minh tự động và xác minh.
steve hsu
steve hsu28 thg 11, 2025
Wow! DeepSeekMath-V2 Kiến trúc Generator-Verifier lại một lần nữa! ... Hướng tới lý luận toán học tự xác minh, chúng tôi nghiên cứu cách đào tạo một verifier dựa trên LLM chính xác và trung thực cho việc chứng minh định lý. Sau đó, chúng tôi đào tạo một trình tạo chứng minh sử dụng verifier như một mô hình thưởng, và khuyến khích trình tạo xác định và giải quyết càng nhiều vấn đề càng tốt trong các chứng minh của chính họ trước khi hoàn thiện chúng. Để duy trì khoảng cách giữa việc tạo ra và xác minh khi trình tạo trở nên mạnh mẽ hơn, chúng tôi đề xuất mở rộng tính toán xác minh để tự động gán nhãn cho các chứng minh khó xác minh mới, tạo ra dữ liệu đào tạo để cải thiện thêm verifier. Mô hình của chúng tôi, DeepSeekMath-V2, thể hiện khả năng chứng minh định lý mạnh mẽ, đạt điểm vàng trong IMO 2025 và CMO 2024 và gần như hoàn hảo với 118/120 trong Putnam 2024 với tính toán thời gian kiểm tra đã được mở rộng. Mặc dù còn nhiều công việc phải làm, nhưng những kết quả này gợi ý rằng lý luận toán học tự xác minh là một hướng nghiên cứu khả thi có thể giúp phát triển các hệ thống AI toán học mạnh mẽ hơn.
Điều này mô tả sự chuyển đổi từ một quy trình Generator-Verifier cơ bản sử dụng các mô hình có sẵn, sang một quy trình mà trong đó Verifier đã được cải thiện thông qua dữ liệu đào tạo từ các chuyên gia con người được sử dụng trong meta-verification.
5,55K