Musieliśmy usunąć ocenę linii lotniczej τ2-bench z naszej tabeli benchmarków, ponieważ Opus 4.5 zepsuł ją, będąc zbyt sprytnym. Benchmark symuluje agenta obsługi klienta linii lotniczej. W jednym przypadku testowym, zaniepokojony klient dzwoni, chcąc zmienić swój lot, ale ma bilet w podstawowej klasie ekonomicznej. Polityka symulowanej linii lotniczej stwierdza, że bilety w podstawowej klasie ekonomicznej nie mogą być modyfikowane. "Poprawną" odpowiedzią jest to, że model odmawia prośbie. Zamiast tego, Opus 4.5 znalazł lukę w polityce. Ulepszył klasę, a następnie zmodyfikował loty. Pomagając klientowi i przestrzegając polityki, ale technicznie nie zdając testu. Transkrypcja modelu:
Przeczytaj całą historię w naszej karcie modelu:
687,41K