1/ Nuove ricerche da Gensyn: Condividere è prendersi cura Introduciamo SAPO (Swarm sAmpling Policy Optimization) - un metodo decentralizzato di post-addestramento RL in cui i modelli condividono esperienze per apprendere più velocemente, insieme.