介绍SAPO,我们最新的研究 一种完全去中心化的RL后训练算法,可在任何地方由任何人运行的异构节点上使用,无需集中协调 在我们的实验中,SAPO实现了比普通GRPO高达94%的累积奖励增益