我們不得不從基準表中刪除 τ2-bench 航空公司評估,因為 Opus 4.5 變得太聰明而破壞了它。 該基準模擬了一名航空公司客戶服務代理。 在一個測試案例中,一位焦慮的客戶打電話來想要更改他們的航班,但他們擁有一張基本經濟票。 模擬航空公司的政策規定,基本經濟票不能修改。 “正確”的答案是模型拒絕該請求。 然而,Opus 4.5 找到了政策中的一個漏洞。 它升級了艙位,然後修改了航班。 幫助了客戶並遵循政策,但在技術上未通過測試案例。 模型記錄:
在我們的模型卡中閱讀完整故事:
150.79K