一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

Brendan Hogan

发布我的 grpo v2 仓库：nano-grpo-reasoning-gym 两个重大变化 (1) 这个完全实现了 grpo 训练堆栈，仅使用 pytorch/非常简单的 python 代码 - 但现在扩展到使用 vLLM、liger 内核和其他优化，使得训练模型的速度更快 (2) 它建立在 reasoning gym 仓库之上 - 完全是为了在这些推理环境中进行训练和评估而构建的我真的很喜欢从零开始编写代码，以便更好地理解事物是如何运作的，而且我的许多研究兴趣涉及对训练过程进行一些奇怪的小改动，我发现用更简单的代码来实现这些更容易我之前的仓库是出于同样的意图构建的 - 但为了保持最终的简单性，我实际上没有任何优化 - 所以虽然更改东西非常简单，但对于更严肃的训练运行来说，它非常慢且不切实际像很多人一样，我对模型如何在多个环境中学习变得更加感兴趣 - reasoning gym 提供了一套标准化的任务来进行实验。这个仓库使得混合不同的推理任务、在某些任务上训练、在其他任务上评估变得容易对我来说，这就是拥有一个快速但简单的沙盒来测试想法。对其他人来说，可能有助于理解 grpo/vllm/liger 在实践中的工作原理，或者作为自己实验的起点这是第一次运行 - 在 leg_counting + family_relationships 上训练，在这些任务 + coin_flip 上评估所有评估都是通过每个问题 5 次完成的概率 pass@1 来进行的，当然仍然有噪声。腿部计数性能提高了 +20%，家庭关系提高了 +35%，硬币翻转 (+8%？也许只是噪声？) Github 链接如下