介绍 `:exacto`,精确工具调用端点 OpenRouter 现在提供了一组经过精心挑选的提供商,基于开源模型,具有可测量的更高工具调用准确性,提供更可靠的工具使用。
在我们的博客文章中阅读完整细节:或继续阅读该主题以获取摘要。
这很重要的原因: 即使提供者托管*相同的模型权重*,实际的推理质量也可能有所不同。 每月处理数十亿个请求使OpenRouter能够独特地观察到这些差异,并自动找出最准确的提供者。
我们如何衡量工具使用质量: • JSON有效性 • 工具名称和模式匹配 • 工具使用倾向(调用工具的倾向) • 用户忽略/黑名单偏好 • 外部基准(τ²-Bench,LiveMCPBench通过@GroqInc OpenBench)
这些数据表明,工具调用的准确性在不同提供商之间的差异远远超过传统基准所暗示的,即使对于相同的开放权重模型。 因此,我们构建了仅路由到最可靠的端点。
启动模型包括: `moonshotai/kimi-k2-0905:exacto` `deepseek/deepseek-v3.1-terminus:exacto` `z-ai/glm-4.6:exacto` `openai/gpt-oss-120b:exacto` `qwen/qwen3-coder:exacto` 在这里查看它们全部。
确切的模型 + 提供者组合: Kimi K2: @GroqInc 和 @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra 和 @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3 Coder: @basetenco, @cerebras 和 @GoogleAI DeepSeek Terminus: @AtlasCloud_AI, DeepInfra 和 Novita
像使用其他模型一样使用它们,只需附加 `:exacto`: ```bash curl \ -H "Authorization: Bearer $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"法国的首都是什么?"}]}' ```
基准测试和内部评估显示,所有 `:exacto` 模型的工具调用成功率显著提高,出现无效 JSON 的情况减少,模式不匹配的情况减少,实际可靠性更高。感谢 @GroqInc 的 OpenBench 提供评估工具和新添加的 LiveMCPBench。
`:exacto` 变体专注于工具调用的精确性,而不是提供商质量的一般排名。 我们将继续扩展这些端点,并在今年晚些时候分享更多汇总数据。
114.24K