تقديم ":exacto"، نقاط نهاية استدعاء الأدوات الدقيقة يقدم OpenRouter الآن مجموعة فرعية منسقة من مقدمي الخدمات على أفضل النماذج مفتوحة المصدر بدقة استدعاء أداة أعلى بشكل ملحوظ مما يوفر استخداما أكثر موثوقية للأدوات.
اقرأ التفاصيل الكاملة في منشور المدونة الخاص بنا: أو استمر في قراءة الموضوع للحصول على الملخص.
لماذا هذا مهم: حتى عندما يستضيف مقدمو الخدمة * نفس أوزان النموذج * ، يمكن أن تختلف جودة الاستدلال في العالم الحقيقي. يمنح تشغيل مليارات الطلبات شهريا OpenRouter وجهة نظر فريدة لاكتشاف هذه الاختلافات وعرض المزودين الأكثر دقة تلقائيا.
كيف نقيس جودة استخدام الأدوات: • صلاحية JSON • اسم الأداة ومطابقات المخطط • الميل إلى استخدام الأدوات (الميل إلى استدعاء الأدوات) • تجاهل المستخدم / تفضيلات القائمة السوداء • المعايير الخارجية (τ²-Bench ، LiveMCPBench عبر @GroqInc OpenBench)
تكشف هذه البيانات أن دقة استدعاء الأدوات تختلف بين مقدمي الخدمات أكثر بكثير مما تقترحه المعايير التقليدية ، حتى بالنسبة لنفس نموذج الوزن المفتوح. لذلك قمنا ببناء نقاط نهاية توجه * فقط * إلى النقاط الأكثر موثوقية.
تشمل نماذج الإطلاق ما يلي: "Moonshotai / Kimi-K2-0905: Exacto" "deepseek / deepseek-v3.1-terminus: exacto" "Z-AI / GLM-4.6: exacto" "OpenAI / GPT-OSS-120B: Exacto" "QWEN / QWEN3-المبرمج: exacto" شاهدهم جميعا هنا .
نماذج Exacto + مجموعات المزود: كيمي K2: @GroqInc و @Kimi_Moonshot GLM-4.6: @novita_labs و @DeepInfra و @Zai_org GPT-OSS-120B: Groq ، DeepInfra ، Novita Qwen3 المبرمج: @basetenco و @cerebras و @GoogleAI محطة DeepSee: @AtlasCloud_الذكاء الاصطناعي وDeepInfra وNovita
استخدمها مثل أي نموذج آخر ، فقط قم بإلحاق ": exacto": باش حليقه\ -ح "التفويض: الحامل $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai / kimi-k2-0905: exacto" ، "messages": [{"role": "user" ، "content": "ما هي عاصمة فرنسا؟" ```
تظهر المعايير والتقييمات الداخلية ارتفاعا جوهريا في معدلات نجاح استدعاءات الأدوات عبر جميع نماذج ":exacto" ، وعدد أقل من JSONs غير الصالحة ، وعدد أقل من عدم تطابق المخطط ، وموثوقية أعلى في العالم الحقيقي. صرخ إلى OpenBench الخاص ب @GroqInc لتسخير التقييم و LiveMCPBench المضاف حديثا.
يركز متغير ":exacto" فقط على دقة استدعاء الأدوات ، وليس الترتيب العام لجودة المزود. سنواصل توسيع نقاط النهاية هذه ومشاركة المزيد من البيانات المجمعة في وقت لاحق من هذا العام.
‏‎126.78‏K