Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Modely uvažování jsou nákladné na provoz s tradičními benchmarky, ale často jsou levnější v agentních pracovních postupech, protože se k odpovědím dostanou v menším počtu tahů
V roce 2025 jsme byli svědky toho, jak výpočty v době testování zvyšují náklady na hraniční inteligenci, ale s agentními pracovními postupy je klíčový rozdíl: rychlé nalezení odpovědi může snížit počet tahů, přestože každé otočení stojí více.

GPQA Diamond a τ²-Bench Telecom (agentický benchmark vyžadující, aby modely jednaly v roli zákaznického servisu) vykazují nadprůměrný výkon GPT-5 a o3 ve srovnání s GPT-4.1, ale zatímco rozumové modely stojí >10x za provoz GPQA, v prostředí zákaznických služeb τ² stojí přibližně stejně jako GPT-4.1. O3 a GPT-4.1 mají nyní stejné náklady na tokeny, takže tyto rozdíly jsou způsobeny výhradně efektivitou.


9,75K
Top
Hodnocení
Oblíbené