Introducendo `:exacto`, Strumenti di Precisione per Chiamate agli Endpoint OpenRouter ora offre un sottoinsieme curato di fornitori su modelli open source con una precisione di chiamata agli strumenti misurabilmente superiore, garantendo un utilizzo degli strumenti più affidabile.
Leggi tutti i dettagli nel nostro post sul blog: o continua a leggere il thread per il riassunto.
Perché questo è importante: Anche quando i fornitori ospitano *gli stessi pesi del modello*, la qualità dell'inferenza nel mondo reale può differire. Eseguire miliardi di richieste al mese offre a OpenRouter un punto di vista unico per rilevare queste variazioni e presentare automaticamente i fornitori più accurati.
Come misuriamo la qualità dell'uso degli strumenti: • Validità JSON • Nome dello strumento e corrispondenza dello schema • Propensione all'uso degli strumenti (tendenza a chiamare strumenti) • Preferenze di ignorare/blacklist dell'utente • Benchmark esterni (τ²-Bench, LiveMCPBench tramite @GroqInc OpenBench)
Questi dati rivelano che l'accuratezza nella chiamata degli strumenti varia molto di più tra i fornitori di quanto suggeriscano i benchmark convenzionali, anche per lo stesso modello a peso aperto. Quindi abbiamo costruito endpoint che instradano *solo* verso i più affidabili.
I modelli di lancio includono: `moonshotai/kimi-k2-0905:exacto` `deepseek/deepseek-v3.1-terminus:exacto` `z-ai/glm-4.6:exacto` `openai/gpt-oss-120b:exacto` `qwen/qwen3-coder:exacto` Vedi tutti qui .
Modelli esatti + combinazioni di fornitori: Kimi K2: @GroqInc e @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra e @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3 Coder: @basetenco, @cerebras e @GoogleAI DeepSeek Terminus: @AtlasCloud_AI, DeepInfra e Novita
Usali come qualsiasi altro modello, basta aggiungere `:exacto`: ```bash curl \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Qual è la capitale della Francia?"}]}' ```
I benchmark e le valutazioni interne mostrano un aumento significativo nei tassi di successo delle chiamate agli strumenti in tutti i modelli `:exacto`, con meno JSON non validi, meno mismatch di schema e maggiore affidabilità nel mondo reale. Un ringraziamento a OpenBench di @GroqInc per l'harness di valutazione e il nuovo LiveMCPBench aggiunto.
La variante `:exacto` è focalizzata puramente sulla precisione nella chiamata degli strumenti, non su una classifica generale della qualità dei fornitori. Continueremo ad espandere questi endpoint e condivideremo ulteriori dati aggregati più avanti quest'anno.
114,24K