Deseja construir leis de escalabilidade para RL, mas não tem certeza de como escalar? Ou quais escalas? Ou o RL sequer escalaria de forma previsível? Apresentamos: A Arte de Escalar o Cálculo de Aprendizagem por Reforço para LLMs