1/ Nova pesquisa da Gensyn: Compartilhar é Cuidar Apresentamos o SAPO (Swarm sAmpling Policy Optimization) - um método de pós-treinamento de RL descentralizado onde os modelos compartilham experiências para aprender mais rápido, juntos.