Los modelos de razonamiento son costosos de ejecutar con benchmarks tradicionales, pero a menudo se vuelven más baratos en flujos de trabajo agentivos, ya que llegan a respuestas en menos turnos. A través de 2025, hemos visto que el cómputo en tiempo de prueba aumenta el costo de la inteligencia de frontera, pero con flujos de trabajo agentivos hay una diferencia clave: llegar a la respuesta rápidamente puede reducir el número de turnos a pesar de que cada turno cueste más.
GPQA Diamond y 𝜏²-Bench Telecom (un benchmark agentivo que requiere que los modelos actúen en un rol de servicio al cliente) muestran un rendimiento desproporcionado para GPT-5 y o3 en comparación con GPT-4.1, pero mientras que los modelos de razonamiento cuestan más de 10 veces ejecutar GPQA, en el entorno de servicio al cliente de 𝜏² cuestan aproximadamente lo mismo que GPT-4.1. o3 y GPT-4.1 ahora tienen costos de token iguales, por lo que estas diferencias son impulsadas completamente por la eficiencia.
9,75K