1/ O nouă cercetare de la Gensyn: Împărtășirea înseamnă grijă Introducem SAPO (Swarm sAmpling Policy Optimization) - o metodă descentralizată de post-antrenament RL în care modelele împărtășesc experiențe pentru a învăța mai repede, împreună.