Einführung von SAPO, unserem neuesten Forschungsergebnis einem vollständig dezentralisierten RL-Post-Training-Algorithmus zur Verwendung über heterogene Knoten, die von jedem, überall, ohne zentrale Koordination betrieben werden SAPO erzielt kumulative Belohnungsgewinne von bis zu 94 % im Vergleich zu Vanilla GRPO in unseren Experimenten