跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-4.75%
USELESS
-4.54%
IKUN
+0.47%
gib
-5.61%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-0.61%
ALON
-1.18%
LAUNCHCOIN
-8.24%
GOONC
-2.51%
KLED
-2.65%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-1.08%
Boopa
+5.57%
PORK
+2.87%
主页
Brendan Hogan
Brendan Hogan
2025年10月18日
发布我的 grpo v2 仓库:nano-grpo-reasoning-gym 两个重大变化 (1) 这个完全实现了 grpo 训练堆栈,仅使用 pytorch/非常简单的 python 代码 - 但现在扩展到使用 vLLM、liger 内核和其他优化,使得训练模型的速度更快 (2) 它建立在 reasoning gym 仓库之上 - 完全是为了在这些推理环境中进行训练和评估而构建的 我真的很喜欢从零开始编写代码,以便更好地理解事物是如何运作的,而且我的许多研究兴趣涉及对训练过程进行一些奇怪的小改动,我发现用更简单的代码来实现这些更容易 我之前的仓库是出于同样的意图构建的 - 但为了保持最终的简单性,我实际上没有任何优化 - 所以虽然更改东西非常简单,但对于更严肃的训练运行来说,它非常慢且不切实际 像很多人一样,我对模型如何在多个环境中学习变得更加感兴趣 - reasoning gym 提供了一套标准化的任务来进行实验。这个仓库使得混合不同的推理任务、在某些任务上训练、在其他任务上评估变得容易 对我来说,这就是拥有一个快速但简单的沙盒来测试想法。对其他人来说,可能有助于理解 grpo/vllm/liger 在实践中的工作原理,或者作为自己实验的起点 这是第一次运行 - 在 leg_counting + family_relationships 上训练,在这些任务 + coin_flip 上评估 所有评估都是通过每个问题 5 次完成的概率 pass@1 来进行的,当然仍然有噪声。 腿部计数性能提高了 +20%,家庭关系提高了 +35%,硬币翻转 (+8%?也许只是噪声?) Github 链接如下
9.37K
103
热门
排行
收藏