Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi introduserer ':exacto', presisjonsverktøykallende endepunkter
OpenRouter tilbyr nå en kuratert undergruppe av leverandører på topp åpen kildekode-modeller med målbart høyere verktøyanropsnøyaktighet som gir mer pålitelig verktøybruk.

Les alle detaljene i blogginnlegget vårt: eller fortsett å lese tråden for sammendraget.

Hvorfor dette er viktig:
Selv når leverandører er vert for *samme modellvekt*, kan den virkelige inferenskvaliteten variere.
Å kjøre milliarder av forespørsler per måned gir OpenRouter et unikt utsiktspunkt for å oppdage disse avvikene og vise de mest nøyaktige leverandørene automatisk.
Slik måler vi kvaliteten på verktøybruk:
• JSON-gyldighet
• Verktøynavn og skjematreff
• Tilbøyelighet til verktøybruk (tendens til å tilkalle verktøy)
• Brukeren ignorerer/svartelister preferanser
• Eksterne benchmarks (τ²-Bench, LiveMCPBench via @GroqInc OpenBench)

Disse dataene avslører at verktøyanropsnøyaktigheten varierer langt mer mellom leverandører enn konvensjonelle benchmarks antyder, selv for den samme åpne vektmodellen.
Så vi bygde endepunkter som ruter *bare* til de mest pålitelige.

Lanseringsmodeller inkluderer:
'moonshotai/kimi-k2-0905:exacto'
'deepseek/deepseek-v3.1-terminus:exacto'
'z-ai/glm-4.6:exacto'
'openai/gpt-oss-120b:exacto'
'qwen/qwen3-koder:exacto'
Se dem alle her.

Exacto-modeller + leverandørkombinasjoner:
Kimi K2: @GroqInc og @Kimi_Moonshot
GLM-4.6: @novita_labs, @DeepInfra og @Zai_org
gpt-oss-120b: Groq, DeepInfra, Novita
Qwen3-koder: @basetenco, @cerebras og @GoogleAI
DeepSeek-endestasjon: @AtlasCloud_AI, DeepInfra og Novita
Bruk dem som alle andre modeller, bare legg til ':exacto':
'''Bash
krølle\
-H "Autorisasjon: Bærer $OPENROUTER_API_KEY" \
-d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Hva er hovedstaden i Frankrike?"}]}'
```
Benchmarks og interne evalueringer viser en vesentlig økning i suksessrater for verktøykall på tvers av alle ':exacto'-modeller, færre ugyldige JSON-er, færre skjemauoverensstemmelser og høyere pålitelighet i den virkelige verden. Shoutout til @GroqInc's OpenBench for eval-selen og den nylig lagt til LiveMCPBench.

':exacto'-varianten er utelukkende fokusert på verktøykallingspresisjon, ikke en generell rangering av leverandørkvalitet.
Vi vil fortsette å utvide disse endepunktene og dele flere aggregerte data senere i år.
126,78K
Topp
Rangering
Favoritter

