Představujeme koncové body pro volání přesných nástrojů ':exacto' OpenRouter nyní nabízí vybranou podmnožinu poskytovatelů na špičkových modelech s otevřeným zdrojovým kódem s měřitelně vyšší přesností volání nástrojů, což přináší spolehlivější používání nástrojů.
Přečtěte si všechny podrobnosti v našem příspěvku na blogu: nebo pokračujte ve čtení vlákna pro shrnutí.
Proč je to důležité: I když poskytovatelé hostují *stejné váhy modelů*, kvalita odvozování v reálném světě se může lišit. Provádění miliard požadavků měsíčně poskytuje OpenRouteru jedinečný výhodný bod pro detekci těchto odchylek a automatické zobrazení nejpřesnějších poskytovatelů.
Jak měříme kvalitu používání nástrojů: • Platnost JSON • Název nástroje a schéma se shodují • sklon k používání nástrojů (tendence volat nástroje) • Předvolby ignorování/černé listiny uživatelů • Externí benchmarky (τ²-Bench, LiveMCPBench přes @GroqInc OpenBench)
Tato data ukazují, že přesnost volání nástrojů se mezi poskytovateli liší mnohem více, než naznačují konvenční benchmarky, a to i pro stejný model s otevřenou váhou. Postavili jsme tedy koncové body, které směrují *pouze* na ty nejspolehlivější.
Mezi zaváděcí modely patří: 'Moonshotai/Kimi-K2-0905:EXACTO' 'deepseek/deepseek-v3.1-terminus:exacto' 'Z-AI/GLM-4.6:EXACTO' 'OpenAI/GPT-OSS-120B:EXACTO' 'qwen/qwen3-coder:exacto' Podívejte se na ně všechny zde.
Modely Exacto + komba poskytovatele: Kimi K2: @GroqInc a @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra a @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Kodér Qwen3: @basetenco, @cerebras a @GoogleAI DeepSeek Terminus: @AtlasCloud_AI, DeepInfra a Novita
Použijte je jako jakýkoli jiný model, stačí připojit ':exacto': '''bash kudrna\ -h "Autorizace: Nosič $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Jaké je hlavní město Francie?"}]}' ```
Srovnávací testy a interní hodnocení ukazují podstatný nárůst úspěšnosti volání nástrojů ve všech modelech ':exacto', méně neplatných kódů JSON, méně neshod schémat a vyšší spolehlivost v reálném světě. Poděkování @GroqInc's OpenBench za eval harness a nově přidaný LiveMCPBench.
Varianta ':exacto' je zaměřena čistě na přesnost volání nástrojů, nikoli na obecný žebříček kvality poskytovatele. Tyto koncové body budeme dále rozšiřovat a později v tomto roce sdílet více agregovaných dat.
114,23K