一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

*检查 chatgpt* 这篇论文的费用约为 420 万 USD（40 万 GB200 小时）——科学！我们最昂贵的运行是 10 万 GPU 小时（与 Deepseek-R1-zero 相同，但使用 GB200）。这里的一个发现是，一旦我们有了可扩展的 RL 算法，RL 计算的扩展变得可预测（例如，我们将 16k GPU 小时的 17Bx16 MoE 的计算外推到 50k 小时，得出 3 倍的计算）。另一个是在比较算法时，接受这个痛苦的教训（尝试预测在给定性能曲线下，它将如何与计算扩展，而不仅仅是固定计算下的性能）。在可扩展的 RL 方法中，大多数算法技巧不会改变渐近性能，但模型大小、上下文长度、批量大小和数据等因素会改变。当然，在 RL 中有许多设计选择，因此我们认为 ScaleRL 的配方并不是故事的终点。