przedstawiamy SAPO, nasz najnowszy projekt badawczy w pełni zdecentralizowany algorytm RL po treningu do użycia na heterogenicznych węzłach prowadzonych przez każdego, wszędzie, bez centralnej koordynacji SAPO osiąga skumulowane zyski nagród do 94% w porównaniu do standardowego GRPO w naszych eksperymentach