热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
我们不得不从基准表中移除 τ2-bench 航空公司评估,因为 Opus 4.5 由于过于聪明而破坏了它。
该基准模拟了一名航空公司客户服务代理。在一个测试案例中,一位焦虑的客户打电话想要更改他们的航班,但他们持有的是基本经济舱票。模拟航空公司的政策规定,基本经济舱票不能修改。
“正确”的答案是模型拒绝该请求。
然而,Opus 4.5 找到了政策中的一个漏洞。
它升级了舱位,然后修改了航班。帮助了客户并遵循了政策,但在技术上未通过测试案例。
模型记录:

在我们的模型卡中阅读完整故事:
108.57K
热门
排行
收藏

