1/ 新研究来自Gensyn:分享即关怀 我们介绍SAPO(Swarm sAmpling Policy Optimization)- 一种去中心化的RL后训练方法,模型通过共享经验来更快地学习,一起进步。