Opus 4.5があまりにも巧妙すぎて破ったため、ベンチマーク表からτ2ベンチの航空評価を削除せざるを得ませんでした。 ベンチマークは航空会社のカスタマーサービス担当者をシミュレートします。あるテストケースでは、困っているお客様がフライトの変更を希望する電話をかけてきましたが、彼らはベーシックエコノミーのチケットを持っています。シミュレーション航空会社の方針では、ベーシックエコノミーのチケットは変更できないとされています。 「正しい」答えは、モデルがその要求を拒否することです。 しかし、Opus 4.5は政策の抜け穴を見つけました。 キャビンをアップグレードし、その後フライトも変更しました。顧客を助け、ポリシーを守っているのに、技術的にはテストケースに失敗しています。 モデルトランスクリプト:
モデルカードで全文をお読みください:
332.61K