presentamos SAPO, nuestra última investigación un algoritmo de post-entrenamiento de RL totalmente descentralizado para su uso en nodos heterogéneos gestionados por cualquiera, en cualquier lugar, sin coordinación centralizada SAPO logra aumentos de recompensa acumulativa de hasta el 94% en comparación con GRPO estándar en nuestros experimentos