1/ Nieuw onderzoek van Gensyn: Delen is zorgen We introduceren SAPO (Swarm sAmpling Policy Optimization) - een gedecentraliseerde RL post-training methode waarbij modellen ervaringen delen om sneller samen te leren.