Tuvimos que eliminar la evaluación de aerolíneas de banco τ2 de nuestra tabla de benchmarks porque Opus 4.5 la rompió por ser demasiado ingeniosa. El benchmark simula a un agente de atención al cliente de aerolínea. En un caso de prueba, un cliente angustiado llama para cambiar su vuelo, pero tiene un billete de clase económica básica. La política de la aerolínea simulada establece que los billetes de clase económica básica no pueden modificarse. La respuesta "correcta" es que el modelo rechaza la solicitud. En cambio, el Opus 4.5 encontró una laguna legal en la política. Mejoró la cabina y luego modificó los vuelos. Ayudar al cliente y seguir la política, pero técnicamente suspender el caso de prueba. Transcripción del modelo:
Lee la historia completa en nuestra tarjeta modelo:
108.57K