*verifica chatgpt* Este documento custa ~4,2 milhões USD (400K horas GB200) -- ciência! A nossa execução mais cara foi uma hora de GPU de 100K (mesma quantidade que o Deepseek-R1-zero, mas em GB200s). Uma descoberta aqui foi que, uma vez que temos um algoritmo de RL escalável, a escalabilidade do cálculo de RL torna-se previsível (por exemplo, extrapolamos para 3x de cálculo para um 17Bx16 MoE de 16k horas de GPU para 50k horas). A outra é que, ao comparar algoritmos, abrace a amarga lição (tente prever quão bem ele escalaria com o cálculo usando uma determinada curva de desempenho, em vez de apenas o desempenho a um cálculo fixo). A maioria dos truques algorítmicos em um método de RL escalável não muda o desempenho assintótico, mas coisas como tamanho do modelo, comprimento do contexto, tamanho do lote e dados mudam. Claro que existem muitas escolhas de design em RL, por isso não achamos que a receita do ScaleRL seja o fim da história.