热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
*检查 chatgpt* 这篇论文的费用约为 420 万 USD(40 万 GB200 小时)——科学!
我们最昂贵的运行是 10 万 GPU 小时(与 Deepseek-R1-zero 相同,但使用 GB200)。
这里的一个发现是,一旦我们有了可扩展的 RL 算法,RL 计算的扩展变得可预测(例如,我们将 16k GPU 小时的 17Bx16 MoE 的计算外推到 50k 小时,得出 3 倍的计算)。
另一个是在比较算法时,接受这个痛苦的教训(尝试预测在给定性能曲线下,它将如何与计算扩展,而不仅仅是固定计算下的性能)。
在可扩展的 RL 方法中,大多数算法技巧不会改变渐近性能,但模型大小、上下文长度、批量大小和数据等因素会改变。
当然,在 RL 中有许多设计选择,因此我们认为 ScaleRL 的配方并不是故事的终点。
热门
排行
收藏

