представляємо САП, наше останнє дослідження повністю децентралізований алгоритм постнавчання RL для використання над різнорідними вузлами, якими керує будь-хто та будь-де, без централізованої координації У наших експериментах SAPO досягає сукупного приросту винагороди до 94% порівняно з ванільним GRPO