1/ Ny forskning fra Gensyn: Sharing is Caring Vi introduserer SAPO (Swarm sAmpling Policy Optimization) - en desentralisert RL-metode etter trening der modeller deler erfaringer for å lære raskere, sammen.