Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Představujeme koncové body pro volání přesných nástrojů ':exacto'
OpenRouter nyní nabízí vybranou podmnožinu poskytovatelů na špičkových modelech s otevřeným zdrojovým kódem s měřitelně vyšší přesností volání nástrojů, což přináší spolehlivější používání nástrojů.

Přečtěte si všechny podrobnosti v našem příspěvku na blogu: nebo pokračujte ve čtení vlákna pro shrnutí.

Proč je to důležité:
I když poskytovatelé hostují *stejné váhy modelů*, kvalita odvozování v reálném světě se může lišit.
Provádění miliard požadavků měsíčně poskytuje OpenRouteru jedinečný výhodný bod pro detekci těchto odchylek a automatické zobrazení nejpřesnějších poskytovatelů.
Jak měříme kvalitu používání nástrojů:
• Platnost JSON
• Název nástroje a schéma se shodují
• sklon k používání nástrojů (tendence volat nástroje)
• Předvolby ignorování/černé listiny uživatelů
• Externí benchmarky (τ²-Bench, LiveMCPBench přes @GroqInc OpenBench)

Tato data ukazují, že přesnost volání nástrojů se mezi poskytovateli liší mnohem více, než naznačují konvenční benchmarky, a to i pro stejný model s otevřenou váhou.
Postavili jsme tedy koncové body, které směrují *pouze* na ty nejspolehlivější.

Mezi zaváděcí modely patří:
'Moonshotai/Kimi-K2-0905:EXACTO'
'deepseek/deepseek-v3.1-terminus:exacto'
'Z-AI/GLM-4.6:EXACTO'
'OpenAI/GPT-OSS-120B:EXACTO'
'qwen/qwen3-coder:exacto'
Podívejte se na ně všechny zde.

Modely Exacto + komba poskytovatele:
Kimi K2: @GroqInc a @Kimi_Moonshot
GLM-4.6: @novita_labs, @DeepInfra a @Zai_org
gpt-oss-120b: Groq, DeepInfra, Novita
Kodér Qwen3: @basetenco, @cerebras a @GoogleAI
DeepSeek Terminus: @AtlasCloud_AI, DeepInfra a Novita
Použijte je jako jakýkoli jiný model, stačí připojit ':exacto':
'''bash
kudrna\
-h "Autorizace: Nosič $OPENROUTER_API_KEY" \
-d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Jaké je hlavní město Francie?"}]}'
```
Srovnávací testy a interní hodnocení ukazují podstatný nárůst úspěšnosti volání nástrojů ve všech modelech ':exacto', méně neplatných kódů JSON, méně neshod schémat a vyšší spolehlivost v reálném světě. Poděkování @GroqInc's OpenBench za eval harness a nově přidaný LiveMCPBench.

Varianta ':exacto' je zaměřena čistě na přesnost volání nástrojů, nikoli na obecný žebříček kvality poskytovatele.
Tyto koncové body budeme dále rozšiřovat a později v tomto roce sdílet více agregovaných dat.
114,23K
Top
Hodnocení
Oblíbené

