1/ Neue Forschung von Gensyn: Teilen ist Fürsorge Wir stellen SAPO (Swarm sAmpling Policy Optimization) vor - eine dezentralisierte RL-Nachtrainingsmethode, bei der Modelle Erfahrungen teilen, um schneller gemeinsam zu lernen.