跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-17.05%
USELESS
-15.77%
IKUN
-3.39%
gib
-9.92%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-8.98%
ALON
-19.98%
LAUNCHCOIN
+15.51%
GOONC
-8.67%
KLED
-11.67%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-13.99%
Boopa
-9.66%
PORK
-7.2%
主页
Bing Liu
研究@Scale_AI总监。上一篇: GenAI @Meta, PhD @CarnegieMellon.
查看原文
Bing Liu
2025年10月30日
AI真的能自动化工作吗? @Scale_AI 和 @ai_risks 正在推出远程劳动指数(RLI),这是第一个基准和公共排行榜,测试AI代理在软件工程、设计、建筑、数据分析等领域完成真实、有偿自由职业工作的能力。 初步结果显示了今天模型的局限性。顶级AI代理仅完成了2.5%的真实自由职业工作,表现优于人类。AI很强大,但还不够可靠,无法取代熟练劳动。 RLI为我们提供了一种透明的方式来跟踪进展,并为未来的工作带来清晰度。
71.98K
262
Bing Liu
2025年10月2日
新的 @Scale_AI 论文! 奖励黑客行为的罪魁祸首?我们追溯到高奖励尾部的错误规范。 我们的解决方案:基于评分标准的奖励,以区分“优秀”的回应和“出色”的回应。 结果:减少黑客行为,增强后训练效果!
13.92K
175
Bing Liu
2025年9月21日
🚀 介绍SWE-Bench Pro — 一个新的基准,用于评估LLM编码代理在真实的企业级软件工程任务上的表现。 这是SWE-Bench的下一步:更难,抗污染,更接近真实世界的代码库。
408.5K
1.02K
热门
排行
收藏