Présentation de `:exacto`, Outils de Précision - Appels d'Endpoints OpenRouter propose désormais un sous-ensemble sélectionné de fournisseurs sur des modèles open source avec une précision d'appel d'outils mesurablement plus élevée, offrant une utilisation des outils plus fiable.
Lisez tous les détails dans notre article de blog : ou continuez à lire le fil pour le résumé.
Pourquoi cela est important : Même lorsque les fournisseurs hébergent *les mêmes poids de modèle*, la qualité d'inférence dans le monde réel peut différer. Traiter des milliards de requêtes par mois donne à OpenRouter un point de vue unique pour détecter ces variations et mettre automatiquement en avant les fournisseurs les plus précis.
Comment nous mesurons la qualité de l'utilisation des outils : • Validité JSON • Correspondance du nom de l'outil et du schéma • Propension à utiliser l'outil (tendance à appeler des outils) • Préférences d'ignorance/liste noire de l'utilisateur • Références externes (τ²-Bench, LiveMCPBench via @GroqInc OpenBench)
Ces données révèlent que la précision d'appel des outils varie beaucoup plus entre les fournisseurs que ne le suggèrent les références conventionnelles, même pour le même modèle à poids ouvert. Nous avons donc construit des points de terminaison qui routent *uniquement* vers les plus fiables.
Les modèles de lancement incluent : `moonshotai/kimi-k2-0905:exacto` `deepseek/deepseek-v3.1-terminus:exacto` `z-ai/glm-4.6:exacto` `openai/gpt-oss-120b:exacto` `qwen/qwen3-coder:exacto` Découvrez-les tous ici .
Modèles Exacto + combinaisons de fournisseurs : Kimi K2 : @GroqInc et @Kimi_Moonshot GLM-4.6 : @novita_labs, @DeepInfra, et @Zai_org gpt-oss-120b : Groq, DeepInfra, Novita Qwen3 Coder : @basetenco, @cerebras, et @GoogleAI DeepSeek Terminus : @AtlasCloud_AI, DeepInfra, et Novita
Utilisez-les comme n'importe quel autre modèle, il suffit d'ajouter `:exacto` : ```bash curl \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Quelle est la capitale de la France ?"}]}' ```
Les benchmarks et les évaluations internes montrent une augmentation significative des taux de succès des appels d'outils à travers tous les modèles `:exacto`, moins de JSON invalides, moins de discordances de schéma et une fiabilité accrue dans le monde réel. Un grand merci à OpenBench de @GroqInc pour le cadre d'évaluation et le nouveau LiveMCPBench ajouté.
La variante `:exacto` est axée uniquement sur la précision de l'appel d'outils, et non sur un classement général de la qualité des fournisseurs. Nous continuerons à étendre ces points de terminaison et à partager plus de données agrégées plus tard cette année.
126,77K