将强化学习应用于多步LLM代理! 代理强化训练器(ART)是一个使用GRPO训练多步代理以完成现实世界任务的框架。 您只需要几行代码。无需手动奖励!✨ 100%开源。