introduserer SAPO, vår nyeste forskning en fullstendig desentralisert RL-algoritme etter trening for bruk over heterogene noder som drives av hvem som helst, hvor som helst, uten sentralisert koordinering SAPO oppnår kumulative belønningsgevinster på opptil 94 % i forhold til vanilje GRPO i våre eksperimenter