giới thiệu SAPO, nghiên cứu mới nhất của chúng tôi tối ưu hóa thuật toán RL sau đào tạo hoàn toàn phi tập trung để sử dụng trên các nút khác nhau do bất kỳ ai, ở bất kỳ đâu, mà không cần điều phối tập trung SAPO đạt được mức tăng thưởng tích lũy lên đến 94% so với GRPO thông thường trong các thí nghiệm của chúng tôi