最新の研究であるSAPOの紹介 一元化された調整なしで、誰でも、どこでも実行される異種ノード上で使用するための完全に分散化されたRLポストトレーニングアルゴリズム SAPOは、私たちの実験でバニラGRPOよりも最大94%の累積報酬ゲインを達成しました