Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wprowadzenie `:exacto`, Narzędzie Precyzyjne - Wywoływanie Punktów Końcowych
OpenRouter teraz oferuje starannie wyselekcjonowany zestaw dostawców na bazie modeli open source z mierzalnie wyższą dokładnością wywoływania narzędzi, co zapewnia bardziej niezawodne korzystanie z narzędzi.

Przeczytaj pełne szczegóły w naszym wpisie na blogu: lub kontynuuj czytanie wątku, aby zobaczyć podsumowanie.

Dlaczego to ma znaczenie:
Nawet gdy dostawcy hostują *te same wagi modelu*, jakość wnioskowania w rzeczywistym świecie może się różnić.
Obsługując miliardy zapytań miesięcznie, OpenRouter ma unikalny punkt widzenia, aby wykrywać te różnice i automatycznie wskazywać najbardziej dokładnych dostawców.
Jak mierzymy jakość użycia narzędzi:
• Ważność JSON
• Zgodność nazwy narzędzia i schematu
• Skłonność do użycia narzędzi (tendencja do wywoływania narzędzi)
• Preferencje użytkowników dotyczące ignorowania/czarnych list
• Zewnętrzne benchmarki (τ²-Bench, LiveMCPBench przez @GroqInc OpenBench)

Te dane ujawniają, że dokładność wywoływania narzędzi znacznie różni się między dostawcami, niż sugerują to konwencjonalne wskaźniki, nawet dla tego samego modelu o otwartej wadze.
Dlatego zbudowaliśmy punkty końcowe, które kierują *tylko* do najbardziej niezawodnych.

Modele do uruchomienia obejmują:
`moonshotai/kimi-k2-0905:exacto`
`deepseek/deepseek-v3.1-terminus:exacto`
`z-ai/glm-4.6:exacto`
`openai/gpt-oss-120b:exacto`
`qwen/qwen3-coder:exacto`
Zobacz je wszystkie tutaj .

Modele Exacto + kombinacje dostawców:
Kimi K2: @GroqInc i @Kimi_Moonshot
GLM-4.6: @novita_labs, @DeepInfra i @Zai_org
gpt-oss-120b: Groq, DeepInfra, Novita
Qwen3 Coder: @basetenco, @cerebras i @GoogleAI
DeepSeek Terminus: @AtlasCloud_AI, DeepInfra i Novita
Użyj ich jak każdego innego modelu, po prostu dodaj `:exacto`:
```bash
curl \
-H "Authorization: Bearer $OPENROUTER_API_KEY" \
-d '{"model": "moonshotai/kimi-k2-0905:exacto", "messages":[{"role":"user","content":"Jakie jest stolicą Francji?"}]}'
```
Benchmarki i wewnętrzne oceny pokazują znaczący wzrost wskaźników sukcesu wywołań narzędzi we wszystkich modelach `:exacto`, mniej nieprawidłowych JSON-ów, mniej niezgodności schematów oraz wyższą niezawodność w rzeczywistych warunkach. Pozdrowienia dla OpenBench od @GroqInc za zestaw oceniający oraz nowo dodany LiveMCPBench.

Wariant `:exacto` koncentruje się wyłącznie na precyzji wywoływania narzędzi, a nie na ogólnym rankingu jakości dostawców.
Będziemy kontynuować rozwijanie tych punktów końcowych i podzielimy się większą ilością zebranych danych później w tym roku.
126,78K
Najlepsze
Ranking
Ulubione

