Memperkenalkan ':exacto', Titik Akhir Pemanggilan Alat Presisi OpenRouter sekarang menawarkan subset penyedia yang dikuratori pada model open source teratas dengan akurasi panggilan alat yang terukur lebih tinggi yang memberikan penggunaan alat yang lebih andal.
Baca detail lengkapnya di posting blog kami: atau lanjutkan membaca utas untuk ringkasannya.
Mengapa ini penting: Bahkan ketika penyedia menghosting *bobot model yang sama*, kualitas inferensi dunia nyata dapat berbeda. Menjalankan miliaran permintaan per bulan memberi OpenRouter sudut pandang unik untuk mendeteksi varians ini dan memunculkan penyedia yang paling akurat secara otomatis.
Cara kami mengukur kualitas penggunaan alat: • Validitas JSON • Nama alat & kecocokan skema • Kecenderungan penggunaan alat (cenderung memanggil alat) • Preferensi pengguna mengabaikan/daftar hitam • Tolok ukur eksternal (τ²-Bench, LiveMCPBench melalui @GroqInc OpenBench)
Data ini mengungkapkan bahwa akurasi pemanggilan alat jauh lebih bervariasi antar penyedia daripada yang disarankan oleh tolok ukur konvensional, bahkan untuk model bobot terbuka yang sama. Jadi kami membangun titik akhir yang merutekan *hanya* ke yang paling andal.
Model peluncuran meliputi: 'moonshotai/kimi-k2-0905:exacto' 'deepseek/deepseek-v3.1-terminus:exacto' 'Z-AI/GLM-4.6:Exacto' 'openai/gpt-oss-120b:exacto' 'qwen/qwen3-coder:exacto' Lihat semuanya di sini .
Model Exacto + kombo penyedia: Kimi K2: @GroqInc dan @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra, dan @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Pembuat Kode Qwen3: @basetenco, @cerebras, dan @GoogleAI Terminus DeepSeek: @AtlasCloud_AI, DeepInfra, dan Novita
Gunakan seperti model lainnya, cukup tambahkan ':exacto': '''Bash Curl\ -H "Otorisasi: Pembawa $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Apa ibu kota Prancis?"}]}' ```
Tolok ukur dan eval internal menunjukkan peningkatan material dalam tingkat keberhasilan panggilan alat di semua model ':exacto', lebih sedikit JSON yang tidak valid, lebih sedikit ketidakcocokan skema, dan keandalan dunia nyata yang lebih tinggi. Teriakan kepada OpenBench @GroqInc untuk harness eval dan LiveMCPBench yang baru ditambahkan.
Varian ':exacto' difokuskan murni pada presisi pemanggilan alat, bukan peringkat umum kualitas penyedia. Kami akan terus memperluas titik akhir ini dan membagikan lebih banyak data agregat akhir tahun ini.
126,78K