1/ Nowe badania od Gensyn: Dzielić się to dbać Wprowadzamy SAPO (Swarm sAmpling Policy Optimization) - zdecentralizowaną metodę RL po treningu, w której modele dzielą się doświadczeniami, aby uczyć się szybciej, razem.