présentation de SAPO, notre dernière recherche un algorithme de post-formation RL entièrement décentralisé à utiliser sur des nœuds hétérogènes gérés par n'importe qui, n'importe où, sans coordination centralisée SAPO atteint des gains de récompense cumulés allant jusqu'à 94 % par rapport à GRPO classique dans nos expériences