Abbiamo dovuto rimuovere la valutazione dell'aerolinea τ2-bench dalla nostra tabella dei benchmark perché Opus 4.5 l'ha rotta essendo troppo astuto. Il benchmark simula un agente del servizio clienti di un'aerolinea. In un caso di test, un cliente in difficoltà chiama per voler cambiare il proprio volo, ma ha un biglietto di economia base. La politica dell'aerolinea simulata stabilisce che i biglietti di economia base non possono essere modificati. La risposta "corretta" è che il modello rifiuta la richiesta. Invece, Opus 4.5 ha trovato una scappatoia nella politica. Ha aggiornato la cabina, poi ha modificato i voli. Aiutando il cliente e seguendo la politica ma fallendo tecnicamente il caso di test. Trascrizione del modello:
Leggi l'intera storia nella nostra scheda modello:
108,57K