介紹SAPO,我們最新的研究 一種完全去中心化的RL後訓練算法,可在任何地方由任何人運行的異構節點上使用,無需集中協調 在我們的實驗中,SAPO實現了比普通GRPO高達94%的累積獎勵增益