Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Musieliśmy usunąć ocenę linii lotniczej τ2-bench z naszej tabeli benchmarków, ponieważ Opus 4.5 zepsuł ją, będąc zbyt sprytnym.
Benchmark symuluje agenta obsługi klienta linii lotniczej. W jednym przypadku testowym, zaniepokojony klient dzwoni, chcąc zmienić swój lot, ale ma bilet w podstawowej klasie ekonomicznej. Polityka symulowanej linii lotniczej stwierdza, że bilety w podstawowej klasie ekonomicznej nie mogą być modyfikowane.
"Poprawną" odpowiedzią jest to, że model odmawia prośbie.
Zamiast tego, Opus 4.5 znalazł lukę w polityce.
Ulepszył klasę, a następnie zmodyfikował loty. Pomagając klientowi i przestrzegając polityki, ale technicznie nie zdając testu.
Transkrypcja modelu:

Przeczytaj całą historię w naszej karcie modelu:
687,41K
Najlepsze
Ranking
Ulubione

