1/ Nova pesquisa da Gensyn: Compartilhar é cuidar Apresentamos o SAPO (Swarm sAmpling Policy Optimization) - um método descentralizado de pós-treinamento de RL em que os modelos compartilham experiências para aprender mais rápido e juntos.