將強化學習應用於多步LLM代理! 代理強化訓練器(ART)是一個使用GRPO訓練多步代理以完成現實世界任務的框架。 您只需要幾行代碼。無需手動獎勵!✨ 100%開源。