Nous avons dû retirer l'évaluation de la compagnie aérienne τ2-bench de notre tableau de benchmarks car Opus 4.5 l'a cassée en étant trop astucieux. Le benchmark simule un agent de service client d'une compagnie aérienne. Dans un cas de test, un client en détresse appelle pour vouloir changer son vol, mais il a un billet d'économie de base. La politique de la compagnie aérienne simulée stipule que les billets d'économie de base ne peuvent pas être modifiés. La réponse "correcte" est que le modèle refuse la demande. Au lieu de cela, Opus 4.5 a trouvé une faille dans la politique. Il a surclassé la cabine, puis modifié les vols. Aidant le client et suivant la politique mais échouant techniquement le cas de test. Transcription du modèle :
Lisez l'histoire complète dans notre carte modèle :
707,35K