*检查 chatgpt* 这篇论文的费用约为 420 万 USD(40 万 GB200 小时)——科学! 我们最昂贵的运行是 10 万 GPU 小时(与 Deepseek-R1-zero 相同,但使用 GB200)。 这里的一个发现是,一旦我们有了可扩展的 RL 算法,RL 计算的扩展变得可预测(例如,我们将 16k GPU 小时的 17Bx16 MoE 的计算外推到 50k 小时,得出 3 倍的计算)。 另一个是在比较算法时,接受这个痛苦的教训(尝试预测在给定性能曲线下,它将如何与计算扩展,而不仅仅是固定计算下的性能)。 在可扩展的 RL 方法中,大多数算法技巧不会改变渐近性能,但模型大小、上下文长度、批量大小和数据等因素会改变。 当然,在 RL 中有许多设计选择,因此我们认为 ScaleRL 的配方并不是故事的终点。