pensando em como o treinamento de RL acaba otimizando para as próprias avaliações