memperkenalkan SAPO, penelitian terbaru kami algoritme pasca-pelatihan RL yang sepenuhnya terdesentralisasi untuk digunakan pada node heterogen yang dijalankan oleh siapa saja, di mana saja, tanpa koordinasi terpusat SAPO mencapai keuntungan imbalan kumulatif hingga 94% dibandingkan GRPO vanilla dalam eksperimen kami