Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Päättelymallit ovat kalliita käyttää perinteisillä vertailuarvoilla, mutta ne ovat usein halvempia agenttien työnkuluissa, koska ne saavat vastauksia harvemmilla kierroksilla
Vuoden 2025 aikana olemme nähneet testiaikaisen laskennan nostavan rajatiedustelun kustannuksia, mutta agenttityönkuluissa on keskeinen ero: vastauksen nopea löytäminen voi vähentää vuorojen määrää, vaikka jokainen vuoro maksaa enemmän.

GPQA Diamond ja τ²-Bench Telecom (agenttinen vertailuarvo, joka vaatii malleja toimimaan asiakaspalveluroolissa) osoittavat molemmat ylisuurta suorituskykyä GPT-5:lle ja o3:lle verrattuna GPT-4.1:een, mutta vaikka päättelymallit maksavat >10x GPQA:n suorittamisesta, τ²:n asiakaspalveluympäristössä ne maksavat suunnilleen saman verran kuin GPT-4.1. o3:lla ja GPT-4.1:llä on nyt samat token-kustannukset, joten nämä erot johtuvat täysin tehokkuudesta.


9,75K
Johtavat
Rankkaus
Suosikit