Opinião polêmica: RL a partir de recompensas "numéricas" é apenas conveniência / nossa preguiça -- e não é o paradigma certo para LLMs. Tokens ENTRAM, Tokens saem FTW