':exacto' ile tanışın, Hassas Araç Çağırma Uç Noktaları OpenRouter artık en iyi açık kaynak modellerinde, ölçülebilir şekilde daha yüksek araç çağırma doğruluğuna sahip, daha güvenilir araç kullanımı sağlayan seçilmiş bir sağlayıcı alt kümesi sunuyor.
Blog gönderimizde tüm ayrıntıları okuyun: veya özet için konuyu okumaya devam edin.
Bu neden önemli: Sağlayıcılar *aynı model ağırlıklarını* barındırsa bile, gerçek dünya çıkarım kalitesi farklılık gösterebilir. Ayda milyarlarca istek çalıştırmak, OpenRouter'a bu farklılıkları tespit etmek ve en doğru sağlayıcıları otomatik olarak ortaya çıkarmak için benzersiz bir bakış açısı sağlar.
Takım kullanım kalitesini nasıl ölçüyoruz: • JSON geçerliliği • Araç adı ve şema eşleşmeleri • Araç kullanma eğilimi (araçları çağırma eğilimi) • Kullanıcı tercihleri yok sayar/kara listeye alır • Harici kıyaslamalar (τ²-Bench, @GroqInc OpenBench aracılığıyla LiveMCPBench)
Bu veriler, takım çağırma doğruluğunun, aynı açık ağırlıklı model için bile, sağlayıcılar arasında geleneksel kıyaslamaların önerdiğinden çok daha fazla farklılık gösterdiğini ortaya koyuyor. Bu nedenle, *yalnızca* en güvenilir olanlara yönlendiren uç noktalar oluşturduk.
Lansman modelleri şunları içerir: 'moonshotai/kimi-k2-0905:exacto' 'deepseek/deepseek-v3.1-terminus:exacto' 'z-ai/glm-4.6:exacto' 'openai/gpt-oss-120b:exacto' 'qwen/qwen3-kodlayıcı:exacto' Hepsini burada görün .
Exacto modelleri + sağlayıcı kombinasyonları: Kimi K2: @GroqInc ve @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra ve @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Qwen3 Kodlayıcı: @basetenco, @cerebras ve @GoogleAI DeepSeek Terminali: @AtlasCloud_AI, DeepInfra ve Novita
Bunları diğer modeller gibi kullanın, sadece ':exacto' ekleyin: '''Darbe Curl\ -H "Yetkilendirme: Taşıyıcı $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"kullanıcı","content":"Fransa'nın başkenti neresidir?"}]}' ```
Karşılaştırmalar ve dahili değerlendirmeler, tüm ':exacto' modellerinde araç çağrısı başarı oranlarında önemli bir artış, daha az geçersiz JSON, daha az şema uyuşmazlığı ve daha yüksek gerçek dünya güvenilirliği olduğunu göstermektedir. Değerlendirme koşum takımı ve yeni eklenen LiveMCPBench için @GroqInc'in OpenBench'ine sesleniyorum.
':exacto' varyantı, sağlayıcı kalitesinin genel bir sıralamasına değil, yalnızca araç çağırma hassasiyetine odaklanır. Bu uç noktaları genişletmeye ve bu yıl içinde daha fazla toplu veri paylaşmaya devam edeceğiz.
139,29K