Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Представляємо ':exacto', точні кінцеві точки виклику інструментів OpenRouter тепер пропонує підібрану підмножину постачальників найкращих моделей з відкритим вихідним кодом з помітно вищою точністю виклику інструментів, що забезпечує більш надійне використання інструментів.

Прочитайте повну інформацію в нашому блозі: або продовжуйте читати гілку для резюме.

Чому це важливо: Навіть коли провайдери розміщують *однакові вагові коефіцієнти моделі*, реальна якість висновків може відрізнятися. Запуск мільярдів запитів на місяць дає OpenRouter унікальну можливість виявляти ці відхилення та автоматично знаходити найточніших постачальників.

Як ми оцінюємо якість використання інструменту: • Валідність JSON • Відповідність назви інструменту та схеми • Схильність до використання інструментів (тенден до виклику інструментів) • Ігнорування/чорний список налаштувань користувача • Зовнішні бенчмарки (τ²-Bench, LiveMCPBench via @GroqInc OpenBench)

Ці дані показують, що точність виклику інструментів варіюється набагато більше у різних постачальників, ніж припускають звичайні бенчмарки, навіть для однієї і тієї ж моделі з відкритою вагою. Тому ми створили кінцеві точки, які спрямовують *лише* до найнадійніших.

До моделей запуску відносяться: 'moonshotai/kimi-k2-0905:exacto' 'deepseek/deepseek-v3.1-terminus:exacto' 'z-AI/GLM-4.6:exacto' 'openAI/GPT-OSS-120B:exacto' 'qwen/qwen3-coder:exacto' Переглянути їх усіх можна тут .

Моделі Exacto + комбінації провайдера: Kimi K2: @GroqInc і @Kimi_Moonshot GLM-4.6: @novita_labs, @DeepInfra та @Zai_org gpt-oss-120b: Groq, DeepInfra, Novita Кодер Qwen3: @basetenco, @cerebras та @GoogleAI Кінцева станція DeepSeek: @AtlasCloud_AI, DeepInfra та Novita

Використовуйте їх, як і будь-яку іншу модель, просто додайте ':exacto': '''Баш локон\ -H "Авторизація: Пред'явник $OPENROUTER_API_KEY" \ -d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Яка столиця Франції?"}]}' ```

Бенчмарки та внутрішні дослідження показують значне зростання показників успішності викликів інструментів у всіх моделях ':exacto', менша кількість недійсних JSON, менша кількість невідповідностей схеми та вища надійність у реальному світі. Дякуємо @GroqInc's OpenBench за підвісну систему eval та нещодавно доданий LiveMCPBench.

Варіант ':exacto' орієнтований виключно на точність виклику інструментів, а не на загальний рейтинг якості провайдера. Пізніше цього року ми продовжимо розширювати ці кінцеві точки та надавати більше зведених даних.

114,24K

Найкращі

Рейтинг

Вибране