Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
*verifica chatgpt* Este documento custa ~4,2 milhões USD (400K horas GB200) -- ciência!
A nossa execução mais cara foi uma hora de GPU de 100K (mesma quantidade que o Deepseek-R1-zero, mas em GB200s).
Uma descoberta aqui foi que, uma vez que temos um algoritmo de RL escalável, a escalabilidade do cálculo de RL torna-se previsível (por exemplo, extrapolamos para 3x de cálculo para um 17Bx16 MoE de 16k horas de GPU para 50k horas).
A outra é que, ao comparar algoritmos, abrace a amarga lição (tente prever quão bem ele escalaria com o cálculo usando uma determinada curva de desempenho, em vez de apenas o desempenho a um cálculo fixo).
A maioria dos truques algorítmicos em um método de RL escalável não muda o desempenho assintótico, mas coisas como tamanho do modelo, comprimento do contexto, tamanho do lote e dados mudam.
Claro que existem muitas escolhas de design em RL, por isso não achamos que a receita do ScaleRL seja o fim da história.
Top
Classificação
Favoritos

