Áp dụng RL cho các tác nhân LLM nhiều bước! Agent Reinforcement Trainer (ART) là một khung để đào tạo các tác nhân nhiều bước cho các nhiệm vụ thực tế bằng cách sử dụng GRPO. Bạn chỉ cần một vài dòng mã. Không cần phần thưởng thủ công! ✨ 100% mã nguồn mở.