Modely uvažování jsou nákladné na provoz s tradičními benchmarky, ale často jsou levnější v agentních pracovních postupech, protože se k odpovědím dostanou v menším počtu tahů V roce 2025 jsme byli svědky toho, jak výpočty v době testování zvyšují náklady na hraniční inteligenci, ale s agentními pracovními postupy je klíčový rozdíl: rychlé nalezení odpovědi může snížit počet tahů, přestože každé otočení stojí více.
GPQA Diamond a τ²-Bench Telecom (agentický benchmark vyžadující, aby modely jednaly v roli zákaznického servisu) vykazují nadprůměrný výkon GPT-5 a o3 ve srovnání s GPT-4.1, ale zatímco rozumové modely stojí >10x za provoz GPQA, v prostředí zákaznických služeb τ² stojí přibližně stejně jako GPT-4.1. O3 a GPT-4.1 mají nyní stejné náklady na tokeny, takže tyto rozdíly jsou způsobeny výhradně efektivitou.
9,75K