Aplique RL a Agentes LLM de Múltiplos Passos! O Agente Treinador de Reforço (ART) é uma estrutura para treinar agentes de múltiplos passos para tarefas do mundo real usando GRPO. Você só precisa de algumas linhas de código. Nenhuma recompensa manual necessária! ✨ 100% código aberto.