1/ Penelitian baru dari Gensyn: Berbagi adalah Peduli Kami memperkenalkan SAPO (Swarm sAmpling Policy Optimization) - metode pasca-pelatihan RL terdesentralisasi di mana model berbagi pengalaman untuk belajar lebih cepat, bersama-sama.