熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
介紹 `:exacto`,精確工具調用端點
OpenRouter 現在提供了一組經過精心挑選的供應商,基於開源模型,具備可測量的更高工具調用準確性,提供更可靠的工具使用。

在我們的部落格文章中閱讀完整細節:或繼續閱讀該主題以獲取摘要。

為什麼這很重要:
即使提供者使用*相同的模型權重*,實際推理質量也可能有所不同。
每月處理數十億個請求使OpenRouter能夠獲得獨特的視角,以檢測這些差異並自動顯示最準確的提供者。
我們如何衡量工具使用質量:
• JSON 有效性
• 工具名稱與架構匹配
• 工具使用傾向(呼叫工具的傾向)
• 用戶忽略/黑名單偏好
• 外部基準(τ²-Bench,通過 @GroqInc 的 LiveMCPBench OpenBench)

這些數據顯示,工具調用的準確性在不同提供者之間的變化遠超過傳統基準所暗示的,即使是對於相同的開放權重模型。
因此,我們建立了僅路由到最可靠的端點。

啟動的模型包括:
`moonshotai/kimi-k2-0905:exacto`
`deepseek/deepseek-v3.1-terminus:exacto`
`z-ai/glm-4.6:exacto`
`openai/gpt-oss-120b:exacto`
`qwen/qwen3-coder:exacto`
在這裡查看所有模型 .

確切的模型 + 供應商組合:
Kimi K2: @GroqInc 和 @Kimi_Moonshot
GLM-4.6: @novita_labs, @DeepInfra 和 @Zai_org
gpt-oss-120b: Groq, DeepInfra, Novita
Qwen3 Coder: @basetenco, @cerebras 和 @GoogleAI
DeepSeek Terminus: @AtlasCloud_AI, DeepInfra 和 Novita
像使用其他模型一樣使用它們,只需附加 `:exacto`:
```bash
curl \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"法國的首都在哪裡?"}]}'
```
基準測試和內部評估顯示,所有 `:exacto` 模型的工具調用成功率有顯著提升,無效的 JSON 數量減少,架構不匹配的情況減少,實際可靠性提高。感謝 @GroqInc 的 OpenBench 提供評估工具和新增加的 LiveMCPBench。

`:exacto` 變體專注於工具調用的精確性,而不是提供者質量的一般排名。
我們將繼續擴展這些端點,並在今年晚些時候分享更多的聚合數據。
114.24K
熱門
排行
收藏

