1/ 新研究來自Gensyn:分享即關懷 我們介紹SAPO(Swarm sAmpling Policy Optimization)- 一種去中心化的RL後訓練方法,模型通過共享經驗來更快地學習,一起進步。