představujeme SAPO, náš nejnovější výzkum plně decentralizovaný algoritmus RL post-training pro použití nad heterogenními uzly provozovanými kýmkoli, kdekoli, bez centralizované koordinace SAPO dosahuje v našich experimentech kumulativního nárůstu odměn až o 94 % oproti vanilla GRPO