跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
X Campaign
参与活动,赢取丰厚奖励
奖励中心
领取奖励和空投
预警
语言
货币
颜色设置
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
Türkçe
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-5.97%
USELESS
-2.72%
IKUN
+2.14%
gib
-3.75%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-0.25%
ALON
-0.34%
LAUNCHCOIN
-8.34%
GOONC
-1.7%
KLED
-1.56%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.71%
Boopa
+6.14%
PORK
+2.87%
主页
Rishabh Agarwal
研究科学家 @AIatMeta,兼职教授 @McGillU.上一篇:@GoogleDeepMind,Google Brain,米拉,印度理工学院孟买分校。强化学习器。NeurIPS 最佳论文
查看原文
Rishabh Agarwal
2025年11月28日
热议:来自“数值”奖励的强化学习只是便利/我们的懒惰——这不是大语言模型的正确范式。 输入代币,输出代币,万岁!
63.9K
239
Rishabh Agarwal
2025年10月25日
"失败一方没有赢家。" 我在大型科技公司工作了几年后,与在@periodiclabs的经历相比,我观察到的一个重大文化差异是,从"个人影响/晋升"转变为"我们一起赢"。 强烈建议大型科技公司的人考虑加入一家较小的初创公司/企业! 如果你对我们的使命和团队感到兴奋(有什么不好呢?),我们正在招聘! 在机器学习方面,我们正在积极寻找分布式训练、推理、cuda内核、中期训练,甚至预训练。 请访问我们的网站申请。 我主要专注于强化学习,但在这里标记一些你可能想联系的机器学习相关人员 @xanderai @vwxyzjn @DBahdanau @khoomeik @reiinakano。
29.93K
255
Rishabh Agarwal
2025年10月17日
*检查 chatgpt* 这篇论文的费用约为 420 万 USD(40 万 GB200 小时)——科学! 我们最昂贵的运行是 10 万 GPU 小时(与 Deepseek-R1-zero 相同,但使用 GB200)。 这里的一个发现是,一旦我们有了可扩展的 RL 算法,RL 计算的扩展变得可预测(例如,我们将 16k GPU 小时的 17Bx16 MoE 的计算外推到 50k 小时,得出 3 倍的计算)。 另一个是在比较算法时,接受这个痛苦的教训(尝试预测在给定性能曲线下,它将如何与计算扩展,而不仅仅是固定计算下的性能)。 在可扩展的 RL 方法中,大多数算法技巧不会改变渐近性能,但模型大小、上下文长度、批量大小和数据等因素会改变。 当然,在 RL 中有许多设计选择,因此我们认为 ScaleRL 的配方并不是故事的终点。
Devvrit
2025年10月17日
Wish to build scaling laws for RL but not sure how to scale? Or what scales? Or would RL even scale predictably? We introduce: The Art of Scaling Reinforcement Learning Compute for LLMs
227.79K
836
热门
排行
收藏